大数据是否等于大错误？

责任编辑：editor004 |来源：企业网D1Net 2014-04-17 11:47:42 本文摘自：中青在线——青年商旅报

谷歌一个研究小组5年前曾在《自然》杂志上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势，而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心要快的多：谷歌的追踪结果只有一天的延时，而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图，延时超过一周。谷歌能算得这么快，是因为他们发现当人们出现流感症状的时候，往往会跑到网络上搜索一些相关的内容。

“谷歌流感趋势”不仅快捷、准确、成本低廉，而且没有使用什么理论。谷歌的工程师们不用费劲的去假设那些搜索关键字（比如“流感症状”或者“我身边的药店”）跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字，然后让算法来做选择就行了。

谷歌流感趋势的成功，很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问，谷歌给我们带来了什么新的科技？

在这诸多流行语中，“大数据”是一个含糊的词语，常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据，相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。

然而在“大数据”里，大多数公司感兴趣的是所谓的“现实数据”，诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据，这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大（例如facebook），更重要的是虽然这类数据的规模很大，但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱地堆积在一起，而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上，互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化，这些在十年前都是无法想象的。

大数据的鼓吹者们提出了四个令人兴奋的论断，每一个都能从谷歌流感趋势的成功中印证： 1) 数据分析可以生成惊人准确的结果； 2) 因为每一个数据点都可以被捕捉到，所以可以彻底淘汰过去那种抽样统计的方法； 3) 不用再寻找现象背后的原因，我们只需要知道两者之间有统计相关性就行了； 4) 不再需要科学的或者统计的模型，“理论被终结了”。《连线》杂志2008年的一篇文章里豪情万丈地写道：“数据已经大到可以自己说出结论了”。

不幸的是，说得好听一些，上述信条都是极端乐观和过于简化了。如果说得难听一点，就像剑桥大学公共风险认知课的Winton教授（类似于国内的长江学者——译者注）David Spiegelhalter评论的那样，这四条都是“彻头彻尾的胡说八道”。

虽然大数据在科学家、企业家和政府眼里看起来充满希望，但如果忽略了一些我们以前所熟知的统计学中的教训，大数据可能注定会让我们失望。

Spiegelhalter教授曾说道：“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失，它们只会更加突出。”

在那篇关于谷歌流感趋势预测的文章发表4年以后，新的一期《自然杂志消息》报道了一则坏消息：在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠地运作了十几个冬天，谷歌的模型显示这一次的流感爆发非常严重，然而疾控中心在慢慢汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍。

问题的根源在于谷歌不知道（一开始也没法知道）搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因，他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因，这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的，或许根本不可能，而发现两件事物之间的相关性则要简单和快速的多，就像《大数据时代》这本书中形容的那样：“因果关系不能被忽略，然而曾作为所有结论出发点的它已经被请下宝座了。”

这种不需要任何理论的纯粹的相关性分析方法，其结果难免是脆弱的。如果你不知道相关性背后的原因，你就无法得知这种相关性在什么情况下会消失。

谷歌的流感趋势出错的一种解释是，2012年12月份的媒体上充斥着各种关于流感的骇人故事，看到这些报道之后，即使是健康的人也会跑到互联网上搜索相关的词语。还有另外一种解释，就是谷歌自己的搜索算法，在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为，这就好像在足球比赛里挪动了门柱一样，球飞进了错误的大门。

统计学家们过去花了200多年，总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了，更新更快了，采集的成本也更低了，但我们不能掩耳盗铃，假装这些陷阱都已经被填平了，事实上它们还在那里。

在1936年，民主党人Alfred Landon与当时的总统富兰克林·罗斯福竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法，计划寄出1000万份调查问卷，覆盖四分之一的选民。最终《读者文摘》在两个多月里收到了惊人的240万份回执，在统计计算完成以后，杂志社宣布Landon将会以55比41的优势击败罗斯福赢得大选，另外4%的选民则会投给第三候选人。

然而真实选举结果与之大相径庭：罗斯福以61比37的压倒性优势获胜。让《读者文摘》更没面子的是，民意调查的创始人乔治·盖洛普通过一场规模小得多的问卷，得出了准确得多的预测结果：盖洛普预计罗斯福将稳操胜券。显然，盖洛普有他独到的办法，而从数据的角度来看，规模并不能决定一切。

民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差。

样本误差是指一组随机选择的样本观点可能无法真实地反映全部人群的看法。而误差的幅度，则会随着样本数量的增加而减小。对于大部分的调查来说，1000次的访谈已经是足够大的样本了。而据报道盖洛普总共进行了3000次的访谈。

就算3000次的访谈已经很好了，那240万次不是会更好吗？答案是否定的。样本误差有个更为危险的朋友：样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人；而样本偏差则意味着这个样本可能根本就不是随机选择的。George Gallup费了很大气力去寻找一个没有偏差的样本集合，因为他知道这远比增加样本数量要重要的多。而《读者文摘》为了寻求一个更大的数据集，结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在1936年那个时代，这个样本群体是偏富裕阶层的。而且Landon的支持者似乎更乐于寄回问卷结果，这使得错误更进了一步。这两种偏差的结合，决定了《读者文摘》调查的失败。

如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。现实数据的集合是如此混乱，很难找出来这里面是否存在样本偏差。而且由于数据量这么大，一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实上，问题依然存在。

《大数据时代》这本书的联合作者，牛津大学互联网中心的维克托·迈尔·舍恩伯格教授，曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”，在这里不再需要采样，因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果，他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题，因为采样已经包含了所有人。但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗？恐怕不是。推特(Twitter)就是一个例子。理论上说你可以存储和分析推特上的每一条记录，然后用来推导出公共情绪方面的一些结论（实际上，大多数的研究者使用的都是推特提供的一个名为“消防水龙带”的数据子集）。

然而即使我们可以读取所有的推特记录，推特的用户本身也并不能代表世界上的所有人。（根据Pew互联网研究项目的结果，在2013年，美国的推特中年轻的，居住在大城市或者城镇的，黑色皮肤的用户比例偏高。）就像微软的研究者Kate Crawford指出的那样，现实数据含有系统偏差，人们需要很仔细的考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象，但“N=所有”往往只是一个颇有诱惑力的假象而已。

毫无疑问，更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例，比如谷歌翻译。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用，机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近“无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题：对因果关系的理解，对未来的推演，以及如何对一个系统进行干预和优化。

伦敦皇家学院的David Hand教授讲过一句话，“现在我们有了一些新的数据来源，但是没有人想要数据，人们要的是答案”。大数据已经到来，但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训，在比以前大得多的数据规模下去解决新的问题、获取新的答案。

关键字：谷歌 Pew Winton 数据点大数据