为什么我对大数据（Big Data）持怀疑态度

责任编辑：editor005 |来源：企业网D1Net 2014-12-10 11:24:24 本文摘自：中国大数据

　　有道理，但是并非是全部。该用的还是一直都在用，只不过概念热点可能不会这么火而已。

大数据

收集、处理和分析数据是一件有意义的事，并必将产生价值。问题在于：我们能从大数据里挖掘出多少价值？是否真的如人们想象得那样多？

据统计，2012年大数据直接相关业务的产值达到100亿美元。而预测称5年以后这个数字将达到500亿美元。如果考虑 Google，Facebook，Twitter，Amazon这几家收集和处理大数据能力最强的公司，目前似乎是合适的投资时机，而由此带动的新市场将使硅谷迎来下一轮欣欣向荣。在硅谷以外，金融、保险、零售、医疗行业都在谈论大数据。在学术界，受益于奥巴马政府最近的2亿美元研究拨款以及各州的大量拨款，今年北美超过50%的计算机科学教授职位面向大数据研究。甚至我的研究物理学和运筹学的朋友们也在谈论大数据。

抛开这些令人鼓舞的数字和预测，回到本质问题，大数据真的能改变人们的生活吗？两年前我对此比较乐观。原因在于，计算机技术的发展正在进入一个摩尔定律失效的时代。CPU的处理速度到达瓶颈，不再能18个月翻一倍。而另一方面，人类获得的数据规模正在以指数速度增长。这预示着，大数据处理需要超越传统的新技术。而这很可能带来全新的发现。两年后，对大数据的炒作已经演变成了某些人为扩大自己的圈子而进行的商业宣传。但是，大数据真的帮我们做到了以前不能做的事吗？

更多的数据并不意味着更多的信息

小明同学想要精确地测出自己的身高。由于测量存在误差，他连续量了5次，然后计算5次的平均值。有理由相信，这种方法比单纯量一次身高更准确些。但如果小明有足够的时间和耐心，他可以量1000000次，然后从1000000个结果里计算自己的身高。在这个例子里，虽然我们拥有了一百万条记录，其中包含的信息并不比5条记录多出多少——它们唯一的用处仍然只是计算小明同学的身高。很不幸，这就是大数据分析面对的现实。

现实中的大数据之所以“大”，是因为互联网把上亿用户的信息汇集在了一起。但我们往往高估了人的差异性。看看四周，人们每天做着相同的交通工具去做差不多的工作。下班以后吃差不多的食物，看一样的电影，上网关注相同的名人。假期到了，则去几个数得着的地方旅游。如果大家都把自己的生活细节一丝不苟地记录下来，我想任何人在看了1000个人的日记以后就不会产生新鲜感了，更遑论10亿人的？既然如此，为什么需要10亿人的数据？

反驳者认为，大数据能帮助更好地把握每个人类个体的情况。但即便在如此目的之下，收集大数据也不是必须的。以Amazon的在线推荐系统为例。对一个女性客户Alice，网站试图推荐Alice感兴趣的商品给她。如果Amazon的设计师热衷于设计复杂的系统，他大可以搜索Amazon的全部10亿个用户资料，找出那些购买偏好和Alice相似的客户，然后推荐她们以前买过的东西给Alice。直觉上说，只有当用户资料库足够大，才能找出和Alice足够相似的人，从而做出靠谱的推荐。但事实是：一个如此复杂的，基于10亿人的系统做出的推荐，其准确率甚至不到万分之一。相反，如果完全忽略Alice的个人偏好，直接给她推荐20个女性购买最多的商品，Alice购买的可能性甚至高于个性化推荐的商品。由此我们可以做出两点判断：(1) 10亿人的数据充斥着不含任何信息的噪音 (2) 即使基于少量信息，也可以判断个体的行为，并且不比基于大数据的判断来得差。

大数据被用来验证知识而非发现知识

在科学和社会学领域，人们寄希望于从大数据中发现新知识，但目前看来这只是个美好的愿望。人类在近300年中发现的知识远多于之前的10万年，但这并不是因为人类的视力和听力进化了。事实上，如果不针对性地分析数据，就不可能从数据中提取出知识。而针对性地分析数据需要恰当的猜想和论证，它们已经是待探索的知识的一部分。不依靠人为干预，仅靠计算机程序自动从大数据里发现知识，这还属于科幻小说的题材。

就学术界的现状来说，大数据基本被用于检验常识，而非发现新知识。举一个我曾经和 @Amber 讨论过的例子。康奈尔大学的Jon Kleinberg教授通过分析Facebook用户数据发现，如果一对情侣拥有过多的共同好友，他们分手的可能性比较高。因为这种情况下情侣会花大量时间和朋友们在一起玩，而失去了独处培养感情的时间。这项发现被纽约时报、Fox新闻网等媒体争相报道，并作为大数据分析的优秀典型。但仔细考虑之下，这真的是一个“发现”吗？我想，Kleinberg教授至少是首先假设了情侣的分手率和他们的共同好友数有关，这才去做数据统计的。而另一方面，公众之所以认为这是个有趣的结果，也恰恰因为它从某种程度上符合了“不证自明”的常识。事实上，如果数据挖掘研究得到了反常识的结论，那么这项研究是难以发表的，至少会遭到苛刻的责难。因为研究者们心里也清楚，大数据充斥着难以分析的噪音，如果得出的结果违反常识，那么多半是噪音导致的错误，而并非少数人的真理。

处理大数据的技术和处理小数据的技术没有本质区别

传统上用于处理和分析小数据的技术，基本都可以直接拿来处理大数据。如机器学习界10-20年前提出的神经网络、SVM、聚类算法，以及统计学界 30-40年前已经成熟的回归分析、PCA等等，现在依然是处理大数据的主流技术。当然，针对大数据处理人们研究了一些优化策略，如采用并行计算，用内存维护数据库，采用消除大数据噪音的方法等等。这些优化技巧有效地提高了处理大数据的效率。但尚称不上本质的进步。

算法层面上，现在最火的当属深度学习（Deep Learning）。公众所知的深度学习以Google Brain为代表，号称从上亿张图片里发现“猫”和“碎纸机”的概念（我相信Google Brain生成了成千上万个概念，其中绝大部分是无法理解的，只有符合常识的这几个被报道出来了，再次验证前一段的论点）。从技术上说，深度学习和 1986年提出的人工神经网络并没有本质区别。仅仅是使用了和传统神经网络略有差别的激励函数，以及针对大数据做了些克制噪音的优化。目前深度学习的大佬 Geoffrey Hinton，Yann LeCun都是八十年代搞神经网络起家的人，经历了近10年被SVM打压发不出论文的郁闷后，终于在近几年翻了身。Yann LeCun刚刚帮NYU拉到了1亿美元的大数据研究经费。还没来得及花，又被Facebook挖去主持Facebook AI Lab，确实炙手可热。虽然深度学习称得上近来的突破之一，但它实质上是把小数据算法应用于大数据的成功实例，并不能算大数据引发的原创技术贡献。

大数据还能火多久

如标题所属，我对大数据的前景持怀疑态度，因此我不认为它会长久地火下去。这个判断基于我片面的认知，当然谈不上正确。个人预测，大数据的概念还有2-3年的炒作空间。所以有志于此的同学们该捞钱的抓紧捞钱，该找工作的抓紧找工作。过了这村可能就没这店了。

最后上一张老图。这张图表明，任何概念都要经历一个：“炒作 -- 低谷 -- 重新上升 -- 创造实际价值”的过程，2012年的时候大数据还在爬升期，而现在大概到顶了。如果要预测未来走势，请参见图中最高点处的“3D打印”，现在还有人聊3D打印吗？呵呵

关键字：1986年个性化推荐 NYU