当前位置:大数据业界动态 → 正文

大数据是一座大宝库

责任编辑:editor007 |来源:企业网D1Net  2015-11-17 17:20:09 本文摘自:中国信息报

看到这样一个题目,也许有人会说,时至今日,这还用说吗?但写下这个题目,恰恰是因为在大数据日益受关注,应用大数据逐渐由企业和研究机构的个体行为拓展到国家战略层面的背景下,也一直有一些不同的声音不绝于耳。

我曾在京城某著名媒体上看到一篇寓言,说是一只小猪出生在猪圈里,每天总是看到一些两条腿的动物来给它们喂各种吃的。高兴的时候,它就在泥里打滚;忧伤的时候,它就趴在那里看夕阳西下。经过对几百天的大数据分析,它认为未来的日子也一定是这样的。终于,一场血腥的杀戮结束了它的大数据分析。临死的时候它说了一句话:大数据都是骗人的。

去年年底,在一次大数据国际研讨会上,也有外国专家提出,大数据可能也是一个大陷阱。这个结论,与上面那个寓言或有异曲同工之味道。而最近,一位知名的社会学学者,写了一篇颇有影响的文章,批判“大数据崇拜”,认为“所谓的大数据,其实只不过就是一堆垃圾,只有社会研究和人文研究,才可能把它变废为宝”。

当然,无论从学术的角度还是从娱乐的角度,对大数据这样一个新事物都是可以仁者见仁、智者见智的。但这些对大数据的非议至少有一个共性或特点,就是对大数据的研究成果只有相对较少的了解,甚至有一些误解。恰如今年早些时候《中国青年报》的一项调查结果所示,既有4/5的受访者认为不清楚什么是大数据,又有3/4的受访者认为存在大数据被滥用的情况,且还有超过2/5的受访者认为大数据有分析价值。这个结果真实地反映了人们对大数据认识的现状。一方面并不了解,一方面却作出自己的评判。

而认可也好反对也罢,总应该把现有的成果作一些全面深入的梳理研究后再下结论。各方对大数据的表述固然各有侧重,但实质上大同小异,要强调的主要就是三点:第一,应该是电子化的数据;第二,应该是太字节到拍字节的大型数据集;第三,应该是数据及其处理技术手段的集成。从特性上看,其应该具有数据体量大、类型多样化、处理速度快、应用价值大、发送方式灵活等诸多特点。由此来看,那些只有几个、十几个、几十个、几百个乃至更多一些样本或由全样本构成的总体,无论是电子化还是非电子化数据,真的与我们要观察要应用要开发要研究的大数据差之甚远。

而我们统计工作者研究问题,是需要把边界划分清楚的。基于以往的研究和统计工作的需求,我们把大数据作了两种划分。从存在形式上看,就是可以用二维表显示的结构化数据和文字、图片、音频、视频等非结构化数据;从数据来源看,就是行政记录、企业单位经营记录和互联网信息。如此,大数据一定是一座大宝库。它的价值不仅客观存在,而且还在不断产生着,也在不断地流失着。而对统计工作而言,首先要解决的不是去寻找“啤酒与尿布”之类的所谓关联,而是要将其作为数据源的第二轨。因为在基于大数据生成的基础数据越来越多、比重越来越大的背景下,仅采取传统方式搜集传统数据,统计数据就有失真的危险。在此基础上,无论是社会研究、人文研究或经济研究,都一定是大有可为的。我曾经在12年前研究过北京的非典数据库。但那些有限的数据都是在病人确诊前后,依据其口述内容生成的。如果有包括这些病人在内的庞大的个人电子就诊记录,一定可以从中发现很多有价值的信息。

所谓“大数据崇拜”与所谓“GDP崇拜”一样,或许是一个伪命题。因为所谓崇拜,一定含有某种神话的味道。而片面追求GDP,只是错误政绩观所致。至于大数据,有识之士只是强调了其重要性而已。正因为重要,美国总统行政办公室于2014年5月发布政策报告,题目就叫《大数据:抓住机遇,保存价值》。正因为重要,国务院常务会议8月19日通过了《关于促进大数据发展的行动纲要》,并提出了运用大数据各部委行动时间表。大数据是一座大宝库,我们真的不要让这座宝库的价值再白白地流失掉。

关键字:数据生成数据来源大数据崇拜

本文摘自:中国信息报

x 大数据是一座大宝库 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据是一座大宝库

责任编辑:editor007 |来源:企业网D1Net  2015-11-17 17:20:09 本文摘自:中国信息报

看到这样一个题目,也许有人会说,时至今日,这还用说吗?但写下这个题目,恰恰是因为在大数据日益受关注,应用大数据逐渐由企业和研究机构的个体行为拓展到国家战略层面的背景下,也一直有一些不同的声音不绝于耳。

我曾在京城某著名媒体上看到一篇寓言,说是一只小猪出生在猪圈里,每天总是看到一些两条腿的动物来给它们喂各种吃的。高兴的时候,它就在泥里打滚;忧伤的时候,它就趴在那里看夕阳西下。经过对几百天的大数据分析,它认为未来的日子也一定是这样的。终于,一场血腥的杀戮结束了它的大数据分析。临死的时候它说了一句话:大数据都是骗人的。

去年年底,在一次大数据国际研讨会上,也有外国专家提出,大数据可能也是一个大陷阱。这个结论,与上面那个寓言或有异曲同工之味道。而最近,一位知名的社会学学者,写了一篇颇有影响的文章,批判“大数据崇拜”,认为“所谓的大数据,其实只不过就是一堆垃圾,只有社会研究和人文研究,才可能把它变废为宝”。

当然,无论从学术的角度还是从娱乐的角度,对大数据这样一个新事物都是可以仁者见仁、智者见智的。但这些对大数据的非议至少有一个共性或特点,就是对大数据的研究成果只有相对较少的了解,甚至有一些误解。恰如今年早些时候《中国青年报》的一项调查结果所示,既有4/5的受访者认为不清楚什么是大数据,又有3/4的受访者认为存在大数据被滥用的情况,且还有超过2/5的受访者认为大数据有分析价值。这个结果真实地反映了人们对大数据认识的现状。一方面并不了解,一方面却作出自己的评判。

而认可也好反对也罢,总应该把现有的成果作一些全面深入的梳理研究后再下结论。各方对大数据的表述固然各有侧重,但实质上大同小异,要强调的主要就是三点:第一,应该是电子化的数据;第二,应该是太字节到拍字节的大型数据集;第三,应该是数据及其处理技术手段的集成。从特性上看,其应该具有数据体量大、类型多样化、处理速度快、应用价值大、发送方式灵活等诸多特点。由此来看,那些只有几个、十几个、几十个、几百个乃至更多一些样本或由全样本构成的总体,无论是电子化还是非电子化数据,真的与我们要观察要应用要开发要研究的大数据差之甚远。

而我们统计工作者研究问题,是需要把边界划分清楚的。基于以往的研究和统计工作的需求,我们把大数据作了两种划分。从存在形式上看,就是可以用二维表显示的结构化数据和文字、图片、音频、视频等非结构化数据;从数据来源看,就是行政记录、企业单位经营记录和互联网信息。如此,大数据一定是一座大宝库。它的价值不仅客观存在,而且还在不断产生着,也在不断地流失着。而对统计工作而言,首先要解决的不是去寻找“啤酒与尿布”之类的所谓关联,而是要将其作为数据源的第二轨。因为在基于大数据生成的基础数据越来越多、比重越来越大的背景下,仅采取传统方式搜集传统数据,统计数据就有失真的危险。在此基础上,无论是社会研究、人文研究或经济研究,都一定是大有可为的。我曾经在12年前研究过北京的非典数据库。但那些有限的数据都是在病人确诊前后,依据其口述内容生成的。如果有包括这些病人在内的庞大的个人电子就诊记录,一定可以从中发现很多有价值的信息。

所谓“大数据崇拜”与所谓“GDP崇拜”一样,或许是一个伪命题。因为所谓崇拜,一定含有某种神话的味道。而片面追求GDP,只是错误政绩观所致。至于大数据,有识之士只是强调了其重要性而已。正因为重要,美国总统行政办公室于2014年5月发布政策报告,题目就叫《大数据:抓住机遇,保存价值》。正因为重要,国务院常务会议8月19日通过了《关于促进大数据发展的行动纲要》,并提出了运用大数据各部委行动时间表。大数据是一座大宝库,我们真的不要让这座宝库的价值再白白地流失掉。

关键字:数据生成数据来源大数据崇拜

本文摘自:中国信息报

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^