当前位置:CIO人物访谈 → 正文

不以预测为目的的大数据都是耍流氓

责任编辑:jcao 作者:曹建菊 |来源:企业网D1Net  2016-04-05 10:08:43 本文摘自:企业网D1Net

最近与几位互联网行业的CIO在探讨一些关于大数据的问题,互联网公司应该是国内最早研究并应用大数据成果的行业。但面对全国铺天盖地的大数据热炒,这几位CIO只是淡定地说:“没有应用价值或者不能帮助实现应用价值一切都是空谈。”什么是大数据?百度词条给过一些解释,但大家的解读各异,我们有必要做些正本清源的工作。

龚才春,中国大数据研究专家,中国互联网协会大数据工作委员会委员,在中科院研究所、百度、阿里、腾讯等互联网企业均做过大数据研究工作。龚才春直言不讳:“很多的大数据都是瞎扯,跟大数据一毛钱关系都没有。”

上图为:中国大数据研究专家龚才春

龚才春从大数据产生,大数据概念,大数据思维,以及可能的趋势和应用四个方面进行了分析和阐述。

大数据产生

随着信息存储、信息分析、信息传送能力的不断提升,使得目前无论有多强的处理能力,便能产生多少数据,有多大的存储空间,数据便能占据多大的存储空间,技术为数据的产生提供了前提。此外,互联网也为大数据提供了环境。

云计算则给大数据提供了一个契机,数据开始从PC上,从个人的移动硬盘上慢慢往云端存储,只有云端数据经过统一存储,统一分析,统一挖掘才有可能。因此,云计算推进了大数据的历程。

物联网加速了大数据的发展,包括人与人,人与物,物与物的链接,手上戴的手环,让人与物联接;车联网,让这辆汽车跟那辆汽车联接,实现物与物的联接。当任何物体都能产生数据的时候,数据量自然特别庞大。

摩尔定律同样适用于大数据领域,即最近两年产生的数据是过去人类历史上产生数据的总和,也就是18个月到两年的时间内,便会实现世界数据量的翻番。

社交网络的推动, Internet是一个真真事实客观存在的网络,一个客观存在的世界。距离的虚拟化只是物理距离的虚拟化,社会网络继承了人类特有的情绪特性,当社交网络让机器有了人类的情感,将变得非常可怕。

举个例子,如果想与已经去世的外婆吃个饭聊个天,在未来是否有可能实现?龚才春认为,这是有可能实现的:“如果把人的一生全部数字化,通过大数据分析、处理和挖掘,完全可以预测我在某种情况下我说了什么话,我的外婆会回答什么话,这时候人类的情绪喜怒悲乐,这些情绪也有可能传递给一台机器。”

麦肯锡给大数据的定义是大小超过常规数据库工具的数据,但什么叫常规数据库工具这是没有定义的。超过数据处理能力的数据就叫大数据吗?自然也不一定。因此,从大数据的属性上分析会更加合理。

大数据 满足4V+1C

大数据必须同时满足4V+1C这五个条件才能称之为大数据。

首先是Volume,一定要求体量特别大,比如前阶段有人将重庆马拉松做成了一个大数据研究,得出的结论一半是重庆人,一半是外地人,这不能称之为大数据,一共只有两万多人参加了重庆的马拉松,这个体量不够大。但林彪当年打辽沈战役的时候,用十万人攻打国民党将领廖耀湘所率的二十万人,并用这十万人包围了一个叫胡家窝棚的小村子,就把敌将最好的指挥官给抓住。就是基于林彪每次打完账之后,就会让人汇报缴获的机枪、步枪、冲锋枪、手枪等情况,那次小规模的战役之后,他发现当时缴获的手枪比例特别高,所以林彪才得出那个地方是敌对指挥所的结论。在那个年代,这就是典型的大数据应用,但20万数据到现在就不行了。也就是数据体量大小与时间有关。数据体量与当时的技术及应用场景有关系。

第二、Variety,要求数据类型多,重庆的马拉松比赛类型很简单,从这点分析也不是大数据。一个大数据任务,一定要有各种各样类型的数据在一块处理,包括文本的、音频的、视频的等格式化的或者 非格式化的数据类型等等。

第三、Velocity,今天的大数据在明天就不一定是大数据,同时,数据还应该是动态的,比如中国有14亿人口的大数据,如果这个数据不适时更新,今年处理不了14亿数据,明年就有可能处理。

第四、Value,即数据价值, Value应具有两个特性,一个是商业价值高,另外,价值密度低。大数据就是在金矿上去淘金,金矿上淘金就满足这两个条件,淘金一定有商业价值,因为黄金很贵重,此外,价值密度特别低。因为一个金矿,这个金矿也许有上万吨的金沙,但是里面也许只有几百公斤的黄金,所以,它的价值密度特别低。

第五、Complex,需要足够复杂才能称之为大数据,如果脑袋拍一拍就知道,也一定不是大数据。比如淘宝说用“大数据告诉你:武汉大学男生最浪漫”,原因是武汉大学的男生经常给女性买玫瑰,这个因果关系如此简单,自然也不是大数据。

所以大家在市场上见到的所谓大数据研究结论,其实都不是大数据,因为它不能同时满足这五个特点。

大数据思维

大数据思维包括以下几种:

第一、全体思维,或者叫全样思维。若想知道洞庭湖有多少鱼,先买一万条鱼对一万条鱼做一个标记,放到洞庭湖,然后一个月之后捞起来,得到一万条鱼,这就是在小数据年代的抽样,再例如人口普查,也都是利用了抽样统计的原理。但是现在因为技术足够强大,可以全过程实时的把所有数据都采集过来。

第二、容错思维,这个世界没有完美的事情,所有的数据都有错误,都有不完美,都有虚假。在这种情况下,小数据年代采用的是数据清洗,大数据时代,不必再清廷,因为不完美的数据,错误的数据,甚至虚假的数据更能够反映它本来的面貌,它就是一种客观存在。

第三、相关思维,不再是因果关系。这世界上可能比较少存在绝对的因果关系,比如以前认为天鹅就是白色的,但是后来发现澳大利亚有黑天鹅,因果关系弱,相关关系才是这个世界上的普遍关系,因此,需要树立相关关系的思维方式。

不以预测为目的的大数据都是耍流氓

龚才春说:“不以预测为目的的大数据都是耍流氓”。研究表明,世界有94%的事情是可以完全预测的。奥斯卡得奖一共是24个奖项,2013年微软预测准了19个,2014年21个,2015年预测准了20个,通过对电影上影期间大家对这个电影的评价预测系统,最后预测到奥斯卡奖每个奖项的最后得主,这就是大数据的威力。

此外,算法也许比你自己更了解你。比如某个职位的匹配,大家都认为HR最专业,结果发现机器找首选人的准确率较HR寻找侯选率准确率高出20%。一个HR一天只能发出一万个邀约,而邀约机器人则能够发出250万至300万个。而机票价格预测则可以帮助客户购买机票时每张票费节省50美元。

世界上第一个大数据成功的商业应用是机票价格的预测。而亚马逊在这方面的研究也有较大突破。比如在家忽然想吃新疆大枣,便在亚马逊上下单,五分钟后送货上门。这样的场景已有可能实现,因为下单的时候亚马逊快递已经到楼下了。这便是因为预测,因为对用户数据足够了解,对和田大枣每年的销售数据足够了解,对这个片区这个楼有多少人有多大的概率会吃和田大枣,都已经做好了预测,所以这就是大数据的魅力,不以预测为目的的大数据都是耍流氓!

关键字:大数据CIO

本文摘自:企业网D1Net

x 不以预测为目的的大数据都是耍流氓 扫一扫
分享本文到朋友圈
当前位置:CIO人物访谈 → 正文

不以预测为目的的大数据都是耍流氓

责任编辑:jcao 作者:曹建菊 |来源:企业网D1Net  2016-04-05 10:08:43 本文摘自:企业网D1Net

最近与几位互联网行业的CIO在探讨一些关于大数据的问题,互联网公司应该是国内最早研究并应用大数据成果的行业。但面对全国铺天盖地的大数据热炒,这几位CIO只是淡定地说:“没有应用价值或者不能帮助实现应用价值一切都是空谈。”什么是大数据?百度词条给过一些解释,但大家的解读各异,我们有必要做些正本清源的工作。

龚才春,中国大数据研究专家,中国互联网协会大数据工作委员会委员,在中科院研究所、百度、阿里、腾讯等互联网企业均做过大数据研究工作。龚才春直言不讳:“很多的大数据都是瞎扯,跟大数据一毛钱关系都没有。”

上图为:中国大数据研究专家龚才春

龚才春从大数据产生,大数据概念,大数据思维,以及可能的趋势和应用四个方面进行了分析和阐述。

大数据产生

随着信息存储、信息分析、信息传送能力的不断提升,使得目前无论有多强的处理能力,便能产生多少数据,有多大的存储空间,数据便能占据多大的存储空间,技术为数据的产生提供了前提。此外,互联网也为大数据提供了环境。

云计算则给大数据提供了一个契机,数据开始从PC上,从个人的移动硬盘上慢慢往云端存储,只有云端数据经过统一存储,统一分析,统一挖掘才有可能。因此,云计算推进了大数据的历程。

物联网加速了大数据的发展,包括人与人,人与物,物与物的链接,手上戴的手环,让人与物联接;车联网,让这辆汽车跟那辆汽车联接,实现物与物的联接。当任何物体都能产生数据的时候,数据量自然特别庞大。

摩尔定律同样适用于大数据领域,即最近两年产生的数据是过去人类历史上产生数据的总和,也就是18个月到两年的时间内,便会实现世界数据量的翻番。

社交网络的推动, Internet是一个真真事实客观存在的网络,一个客观存在的世界。距离的虚拟化只是物理距离的虚拟化,社会网络继承了人类特有的情绪特性,当社交网络让机器有了人类的情感,将变得非常可怕。

举个例子,如果想与已经去世的外婆吃个饭聊个天,在未来是否有可能实现?龚才春认为,这是有可能实现的:“如果把人的一生全部数字化,通过大数据分析、处理和挖掘,完全可以预测我在某种情况下我说了什么话,我的外婆会回答什么话,这时候人类的情绪喜怒悲乐,这些情绪也有可能传递给一台机器。”

麦肯锡给大数据的定义是大小超过常规数据库工具的数据,但什么叫常规数据库工具这是没有定义的。超过数据处理能力的数据就叫大数据吗?自然也不一定。因此,从大数据的属性上分析会更加合理。

大数据 满足4V+1C

大数据必须同时满足4V+1C这五个条件才能称之为大数据。

首先是Volume,一定要求体量特别大,比如前阶段有人将重庆马拉松做成了一个大数据研究,得出的结论一半是重庆人,一半是外地人,这不能称之为大数据,一共只有两万多人参加了重庆的马拉松,这个体量不够大。但林彪当年打辽沈战役的时候,用十万人攻打国民党将领廖耀湘所率的二十万人,并用这十万人包围了一个叫胡家窝棚的小村子,就把敌将最好的指挥官给抓住。就是基于林彪每次打完账之后,就会让人汇报缴获的机枪、步枪、冲锋枪、手枪等情况,那次小规模的战役之后,他发现当时缴获的手枪比例特别高,所以林彪才得出那个地方是敌对指挥所的结论。在那个年代,这就是典型的大数据应用,但20万数据到现在就不行了。也就是数据体量大小与时间有关。数据体量与当时的技术及应用场景有关系。

第二、Variety,要求数据类型多,重庆的马拉松比赛类型很简单,从这点分析也不是大数据。一个大数据任务,一定要有各种各样类型的数据在一块处理,包括文本的、音频的、视频的等格式化的或者 非格式化的数据类型等等。

第三、Velocity,今天的大数据在明天就不一定是大数据,同时,数据还应该是动态的,比如中国有14亿人口的大数据,如果这个数据不适时更新,今年处理不了14亿数据,明年就有可能处理。

第四、Value,即数据价值, Value应具有两个特性,一个是商业价值高,另外,价值密度低。大数据就是在金矿上去淘金,金矿上淘金就满足这两个条件,淘金一定有商业价值,因为黄金很贵重,此外,价值密度特别低。因为一个金矿,这个金矿也许有上万吨的金沙,但是里面也许只有几百公斤的黄金,所以,它的价值密度特别低。

第五、Complex,需要足够复杂才能称之为大数据,如果脑袋拍一拍就知道,也一定不是大数据。比如淘宝说用“大数据告诉你:武汉大学男生最浪漫”,原因是武汉大学的男生经常给女性买玫瑰,这个因果关系如此简单,自然也不是大数据。

所以大家在市场上见到的所谓大数据研究结论,其实都不是大数据,因为它不能同时满足这五个特点。

大数据思维

大数据思维包括以下几种:

第一、全体思维,或者叫全样思维。若想知道洞庭湖有多少鱼,先买一万条鱼对一万条鱼做一个标记,放到洞庭湖,然后一个月之后捞起来,得到一万条鱼,这就是在小数据年代的抽样,再例如人口普查,也都是利用了抽样统计的原理。但是现在因为技术足够强大,可以全过程实时的把所有数据都采集过来。

第二、容错思维,这个世界没有完美的事情,所有的数据都有错误,都有不完美,都有虚假。在这种情况下,小数据年代采用的是数据清洗,大数据时代,不必再清廷,因为不完美的数据,错误的数据,甚至虚假的数据更能够反映它本来的面貌,它就是一种客观存在。

第三、相关思维,不再是因果关系。这世界上可能比较少存在绝对的因果关系,比如以前认为天鹅就是白色的,但是后来发现澳大利亚有黑天鹅,因果关系弱,相关关系才是这个世界上的普遍关系,因此,需要树立相关关系的思维方式。

不以预测为目的的大数据都是耍流氓

龚才春说:“不以预测为目的的大数据都是耍流氓”。研究表明,世界有94%的事情是可以完全预测的。奥斯卡得奖一共是24个奖项,2013年微软预测准了19个,2014年21个,2015年预测准了20个,通过对电影上影期间大家对这个电影的评价预测系统,最后预测到奥斯卡奖每个奖项的最后得主,这就是大数据的威力。

此外,算法也许比你自己更了解你。比如某个职位的匹配,大家都认为HR最专业,结果发现机器找首选人的准确率较HR寻找侯选率准确率高出20%。一个HR一天只能发出一万个邀约,而邀约机器人则能够发出250万至300万个。而机票价格预测则可以帮助客户购买机票时每张票费节省50美元。

世界上第一个大数据成功的商业应用是机票价格的预测。而亚马逊在这方面的研究也有较大突破。比如在家忽然想吃新疆大枣,便在亚马逊上下单,五分钟后送货上门。这样的场景已有可能实现,因为下单的时候亚马逊快递已经到楼下了。这便是因为预测,因为对用户数据足够了解,对和田大枣每年的销售数据足够了解,对这个片区这个楼有多少人有多大的概率会吃和田大枣,都已经做好了预测,所以这就是大数据的魅力,不以预测为目的的大数据都是耍流氓!

关键字:大数据CIO

本文摘自:企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^