当前位置:大数据业界动态 → 正文

大数据确实会说谎?

责任编辑:editor004 |来源:企业网D1Net  2014-02-20 11:22:11 本文摘自:物联中国

大数据分析跟传统的数据分析,到底有什么区别?可能很多人觉得大数据分析非常神秘,但其实大数据分析并没有那么神秘。

第一、现在的大数据分析,跟传统意义的分析有一个本质区别,就是传统的分析是基于结构化、关系性的数据。而且往往是取一个很小的数据集,来对整个数据进行预测和判断。但现在是大数据时代,理念已经完全改变了,现在的大数据分析,是对整个数据全集直接进行存储和管理分析。

大数据时代的数据分析跟过去有什么不同?

第二、以前的分析是小样本分析,所以往往要用小样本来预测整个数据全集的特性,这就决定了所采集的小样本必须是高品质的,否则预测出来的结果就会出现很大偏差。现在的大数据分析,是对数据全集的分析,所以要对数据的一些噪音有一定的包容性。

第三、原先传统的数据分析,是根据小样本数据的分析对全局数据进行分析和预测。所以在整个预测分析过程中往往采用因果关系的推理过程。现在的大数据分析,因果关系并不是关注点,而是基于对整个数据全集的分析。对企业来说需要了解的是,关联性的分析和规律性的特性。比如啤酒往往跟尿布的销售同步上升,那么在大数据的分析下,我们不需要了解为什么啤酒和尿布的销售量会同步增长,只需要知道尿布和啤酒是同步上升就可以了,基于这个结果,就可以制定很多商业策略和营销手段。

第四、现在的数据往往是海量的,特别是很多新兴的数据,很具有时效性,打破了原先数据先搜集、清洗、存储、然后进行分析的滞后手段。很多分析的需求往往是实时的,需要边采集,边分析,这也是大数据分析的另一大特性。

[page]

早在中学阶段,统计学就告诉我们一个事实:数据是不会说谎的,大量的统计数据经过整理建模,可以最直观地反映真实的情况。近几年来,大数据技术在各领域取得的成功也为这一事实提供了最佳的佐证。不过,最近普林斯顿大学和社交软件老大facebook之间的互掐事件,也说明了另一个事实:数据分析有时候也是会出问题的。

大数据也会说谎?问题出在模型上

普林斯顿奇怪研究惹毛facebook

上个月底,美国普林斯顿大学发表了一篇十分有料的研究报告,报告上称,按照普林斯顿研究人员的统计和计算,目前的社交网站龙头老大facebook在三年内将会流失百分之八十的用户,面临关门大吉的境地。这份报告写得十分正式,一点也不像恶搞的玩笑,经过各大媒体的疯狂转载,facebook终于怒了,几天之后facebook的数据科学家们也发表了一份研究报告,用和普林斯顿研究员一样的数学模型和数据获取渠道,得到了更耸人听闻的分析结果:普林斯顿大学学生将在2018年减少一半,到2021年将失去所有学生。

很明显,facebook和普林斯顿的互掐在业界已经成了一个段子,他们的分析结果显然都是不靠谱的,但是他们所用的方法,却是实实在在的大数据技术和严谨的数学模型,难道,数据真的会说谎吗?

分析算法和数据渠道选用不当,数据确实会说谎

之所以普林斯顿和facebook的研究报告会得出那样离谱的结果,主要原因在于他们获取数据的渠道以及分析数据所用的算法模型不当,在数据分析中,只要这两个东西错了,数据一定会“说谎”。

研究报告中,普林斯顿和facebook用于分析对方的模型都是“流行病学模型”,这个模型一般被用于预测某种传染性疾病从爆发到消失的时间及规模,初步看来,普林斯顿大学和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三类划分,与流行病模型确实有相似之处,但仔细一想却经不起推敲,因为流行病会受到药物及人体自身免疫系统的抵抗而消失,但facebook和普林斯顿大学却不会,相反,社交软件和高等学府是人们需要的东西。

除了分析模型选用错误,普林斯顿大学在获取数据的渠道上,也存在选择不当的问题,研究人员在统计facebook的使用度时,依靠的是谷歌上“facebook”词条的搜索数量,并且由“facebook”词条的搜索频率越来越低就判断出facebook正在流失用户,这是非常武断的。因为随着移动技术的发展,越来越多的人会通过客户端而不是网页来登录facebook,在这种趋势下,谷歌上“fcebook”词条的搜索频率必然会越来越低,但这并不代表它的用户数量也在减少。

普林斯顿和facebook的段子我们可以一笑而过,在数据分析时,准确选用分析模型及数据来源的重要性由此也可见一斑,不然数据真说起谎来,可是一点也不好笑。

关键字:facebook 谷歌 分析模型 数据分析

本文摘自:物联中国

大数据确实会说谎? 扫一扫
分享本文到朋友圈

关于我们联系我们版权声明友情链接广告服务会员服务投稿中心招贤纳士

企业网版权所有©2010-2020 京ICP备09108050号-6

^