“东莞迁徙”有何大数据误区？

责任编辑：editor004 |来源：企业网D1Net 2014-02-14 10:58:47 本文摘自：Donews

我们再说另一个更严重的问题，同样从一个笑话开始，有这么一个研究结论，就是喝牛奶越多越容易得癌症。回到东莞迁徙的例子同样如此，东莞作为一个GDP排在全国前列的小城市，本来就很不平凡，每年吸引的外地打工人口不是一个小数目。

央视2月9日曝光东莞色情业，一石激起千层浪。当晚，一套来自“百度迁徙”大数据分析的网络图被热转。该图简单而直接地显示了2月9日晚上10点之前8个小时内从东莞迁出及迁入的十大热门城市。虽然原文没有明确地进行解读，但在这个时点网友纷纷转发，心照不宣地认为这就是一张“嫖客小姐逃离图”。

从整个事情的流程来看，这是一个非常经典的大数据的应用案例。首先结论来源于数据而且数据足够大，然后用到了大数据的分析方法，当然这个具体的模型和算法百度帮大家做了，然后用最时尚最酷的可视化方式展现出来，最后从数据的结果推出了实际想要的结论，一切都那么完美。

这个大数据的例子比起很多教科书上的例子还要好。从分析的方法来看，逻辑也是非常严密的，要研究的方向是央视曝光之后的影响，这个说得专业一些叫做干预分析。关于影响的可能结果，见仁见智，这个研究选择了一个公众非常感兴趣的结论，也就是出逃的嫖客的去向。该研究选择的方法也很到位，直接利用到了百度的迁徙可视化工具，从数据到结论的完整步骤都有了。

那么，在大数据时代，一个严密而完善的分析流程是否代表着正确呢？这个问题的答案涉及到了大数据的一个非常重要的本质和误区，并不是用了大数据就一定有结果。

实际上，不论是大数据还是小数据，数据分析的本质一定是方法要和假设匹配、模型要和数据匹配。我们不用说得那么深奥，就用这个例子的程度来还原一个真正的大数据分析的流程。

首先，这个迁徙图的数据到底是什么，读者及“分析师”们真的了解了吗？根据百度提供的资料，数据来自于LBS（基于地理位置的服务）开放平台，我们深入探究一下，实际上是来自移动客户端。百度的开发平台上写得很清楚，提供了安卓、Symbian和IP定位的接口，简单点来说，大家通过移动终端来调用百度地图或者其他基于百度地图的服务，会被百度记录下来，然后利用这些数据进行分析。

但真正用来做迁徙图的数据是什么？百度有直接告诉公众吗？实际上是没有的。利用接口数据，至少有两种方式来绘制迁徙的图形，第一种是通过记录定位的请求，通过每位用户在不同时间位置的轨迹来定义一个迁徙过程，第二种是通过路径规划接口来记录真实的迁徙起止点。

第一种方式的好处是数据量大而且是实际发生的位移，坏处就是很难区分旅途的中点和终点。第二种方式的好处是起止点非常明晰，坏处是数据量少而且很多数据是未发生的。其实从已有的资料来看，应该是第一种方式，只是具体的处理细节百度并没有公布而已。

这种方式深究起来其实问题也很多，比如从武汉到东莞，基本上都要经过咸宁，那么武汉和咸宁流入东莞的客流量如何计算，需要一个明确的定义，百度自然是有的，公众自然是不知道的，但是从热传的那张图来看，武汉和咸宁都是流入东莞的前十名的城市。

通过这个例子，我只是想说大多数人认为自己了解了大数据中的数据，实际上是没有了解清楚的，那么这些数据究竟能得出多强的结论，在百度没有完全披露其所有细节的时候，大众是没有办法了解得很透彻的。

任何细节方面的处理方式不同都可能对结论造成很大的影响。就拿这个简单的例子来说，百度的这个迁徙地图并没有提供足够的信息供用户进行深入的分析，仅仅只是展示一个概貌上的趋势而已，如果强烈地暗示自己只要是利用到了大数据就一定能得到正确的结论，显然是不对的。

关于数据源的澄清可能比较复杂，后面的解说就没那么复杂了。我们现在要说的是选择性样本的问题。通过前面数据源的介绍，不论是否真正的了解，至少大家能够理解这个应用的数据只是一部分样本，说简单一点只能代表使用移动终端开启了百度LBS服务的用户，说复杂一点还和百度计量的口径相关。在任何时候要用统计的方法得出一个结论显然是针对总体的，只是我们使用样本进行推断而已，样本的代表性如何决定了结论的质量。

在东莞迁徙事件之前，百度的这个应用就已经很有名了，最初当然是因为春运。关于春运也有个笑话，说某电视台在火车上问您买到票了吗，结果得出了所有人都买到票的结论。这个例子所有人都知道是一个笑话，其实就是选择性样本偏差的问题。回到东莞迁徙的例子，问题同样存在，只是大家没有当作一个笑话而已。

我们再说另一个更严重的问题，同样从一个笑话开始，有这么一个研究结论，就是喝牛奶越多越容易得癌症。这个结论吓人一跳，但是如果收集各个区域的牛奶消费量和癌症比例的数据，哪怕做一个简单的图，也可以看出来确实是正相关的。

这里面的问题是什么，相信很多人已经看出来了，那就是遗漏了关键因素。一般来说经济发达的区域牛奶的消费量会比较高，而由于生活节奏和环境污染的原因，癌症的比例也会比较高，也就是说关键的因素是区域经济是否发达，而不是简单的牛奶消费量和癌症的关系。

回到东莞迁徙的例子同样如此，东莞作为一个GDP排在全国前列的小城市，本来就很不平凡，每年吸引的外地打工人口不是一个小数目。色情业相关的人口数目其实只是一个很小的比例。从量纲来看，央视曝光事件对人口迁移的影响不一定能比得上随机误差。

最后我们再回到数据本身，很多读者看了前十位城市的排名，但是并没有仔细看其中的比例数值，就拿迁出城市来说，前三位香港、赣州、郴州比例都在十分之一以上，而其他城市的比例非常小，第十名的漳州只有千分之十九，那么纠结于其他的城市实在是没有意义的。

我们再来看前三甲的三个城市，即使截至写稿时的查询（2月10日23点），也仍然是前三甲，说明当天的数据排名并不能证明央视的曝光对时间序列进行了显著的影响。我们再来看香港、赣州和郴州的迁入数据，前十名居然都没有东莞，所以说即使这三个城市的迁入数据有什么不寻常的地方，也不一定是东莞造成的。

无论如何，“东莞迁徙”的例子对大数据来说绝对是一个很好的例子，其价值并不在于网传的结论，而是可以很清楚地解释一个真正的大数据分析的流程以及平常人们对大数据分析的误用，大数据分析并不是灵丹妙药，无论是什么分析都要基于科学的方法，否则会对人们产生强烈的误导，这就得不偿失了。

作者简介：李舰，Mango Solutions中国区数据总监。如果想他继续联系，请关注新浪微博“lijian001”。本文原文首发于微信公共账号“创媒工场”

关键字：数据匹配数据分析模型和算法 Symbian

热文

高端访谈更多

CIO：全数字化时代，你做好转型准备了吗？

国药国际CIO冯伟：数字化转型要打破信息化建系统的固有思维

热点专题更多