当前位置:大数据业界动态 → 正文

到底是大数据还是拜天公

责任编辑:editor006 |来源:企业网D1Net  2015-08-05 16:46:00 本文摘自:中国大数据

大数据

选战又要到了,很多关於用大数据预测人们投票模式的说法及报导又跑出来了,听起来很炫,但真的是这样吗?

先让我们来看看维基百科上关於大数据的定义:

大数据(英语:Big data或Megadata),或称巨量资料、海量资料、大资料,指的是所涉及的资料量规模巨大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的资讯。在总资料量相同的情况下,与个别分析独立的小型资料集(data set)相比,将各个小型资料集合并後进行分析可得出许多额外的资讯和资料关联性,可用来察觉商业趋势、判定研究品质、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型资料集盛行的原因。

的确,大数据在很多可以轻易确认的结果(有没有犯罪,有没有消费)逆推之下,是可以分析出趋势来的。譬如说如果当局愿意公布犯罪时间、犯罪件数、犯罪种类,套上地图位置,就可以得出所谓的犯罪热点,甚至是分析出对民众来讲何时在机率上比较有可能安全的在那个区域行走而不会遭遇到危险。

但是,若是要用在模糊的搜寻行为上,目前的大数据的工具就不够先进了。原因很简单,所谓的搜寻其实只是一种对某某事物感到好奇的行为,但这个好奇所代表的是正面或是负面,或者代表支持或是反对,除非有人开发出跟人脑一样的分辨软体,否则根本无法判断。我曾经参加过某个公司的专案(相信现在还是很多公司这样做),他的媒体分析就是把每天报导的媒体剪报拿下来,一张一张计算,有时加上媒体加权、版面加权,最後用工读生人眼阅读之後,判别这篇报导整体到底是正面还是负面,替这个报导加上一个正负号,最後把整个月的数据统计出来加总,就得出一篇报告。

是的,你没看错,是工读生。但即使是工读生,所做的也比当时的电脑,和现在的电脑要好。因为语意分析就是这麽困难:爸爸这麽有钱,「好好喔~~~~」、这麽努力能够获得大家照顾,「真是太好了~~~~」。不要说是电脑了,就算是人类,在没有看前後文的状况之下,你能够只从「」内的文字看出正面或是负面,酸人或是称赞吗?

所以这篇报导显然完全没有搞懂大数据的真正概念(或者是它有别的想法哈哈)「据香港中评智库大数据中心日前完成的大数据分析,在一定时间里,洪秀柱的媒体声量达54%,领先蔡英文8个百分点之多。在自媒体(指如BBS、部落客等个人媒体)部分,洪秀柱的网民提及度达55.6%,比蔡英文高出11.2个百分点。而自媒体中的意见领袖对蔡英文及洪秀柱的提及度相差较大,洪秀柱的提及率为91.7%,远高於蔡英文的50%。」

也就是这原始文章的引用者(我查过中评智库的原文并不是这样写的)天真的以为美国大亨川普(Donald Trump)在发表了墨西哥人都是强暴犯小偷之後,引起举国譁然,各意见领袖争相批评嘲笑讽刺,这是一种媒体声量和自媒体的领先?川普的谋士会跳出来说真是太好了,这样我们最近领先希拉蕊非常多,远高於她50%?

简单下个结论就是,并非用大数据三个字包装的就是正确,就是领先,数据是中立的,要怎麽扭曲是你家的事,但是拿来对自己加油打气,小心打气过头搞不清楚真正的状况了啊!

关键字:数据中心工读生

本文摘自:中国大数据

x 到底是大数据还是拜天公 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

到底是大数据还是拜天公

责任编辑:editor006 |来源:企业网D1Net  2015-08-05 16:46:00 本文摘自:中国大数据

大数据

选战又要到了,很多关於用大数据预测人们投票模式的说法及报导又跑出来了,听起来很炫,但真的是这样吗?

先让我们来看看维基百科上关於大数据的定义:

大数据(英语:Big data或Megadata),或称巨量资料、海量资料、大资料,指的是所涉及的资料量规模巨大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的资讯。在总资料量相同的情况下,与个别分析独立的小型资料集(data set)相比,将各个小型资料集合并後进行分析可得出许多额外的资讯和资料关联性,可用来察觉商业趋势、判定研究品质、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型资料集盛行的原因。

的确,大数据在很多可以轻易确认的结果(有没有犯罪,有没有消费)逆推之下,是可以分析出趋势来的。譬如说如果当局愿意公布犯罪时间、犯罪件数、犯罪种类,套上地图位置,就可以得出所谓的犯罪热点,甚至是分析出对民众来讲何时在机率上比较有可能安全的在那个区域行走而不会遭遇到危险。

但是,若是要用在模糊的搜寻行为上,目前的大数据的工具就不够先进了。原因很简单,所谓的搜寻其实只是一种对某某事物感到好奇的行为,但这个好奇所代表的是正面或是负面,或者代表支持或是反对,除非有人开发出跟人脑一样的分辨软体,否则根本无法判断。我曾经参加过某个公司的专案(相信现在还是很多公司这样做),他的媒体分析就是把每天报导的媒体剪报拿下来,一张一张计算,有时加上媒体加权、版面加权,最後用工读生人眼阅读之後,判别这篇报导整体到底是正面还是负面,替这个报导加上一个正负号,最後把整个月的数据统计出来加总,就得出一篇报告。

是的,你没看错,是工读生。但即使是工读生,所做的也比当时的电脑,和现在的电脑要好。因为语意分析就是这麽困难:爸爸这麽有钱,「好好喔~~~~」、这麽努力能够获得大家照顾,「真是太好了~~~~」。不要说是电脑了,就算是人类,在没有看前後文的状况之下,你能够只从「」内的文字看出正面或是负面,酸人或是称赞吗?

所以这篇报导显然完全没有搞懂大数据的真正概念(或者是它有别的想法哈哈)「据香港中评智库大数据中心日前完成的大数据分析,在一定时间里,洪秀柱的媒体声量达54%,领先蔡英文8个百分点之多。在自媒体(指如BBS、部落客等个人媒体)部分,洪秀柱的网民提及度达55.6%,比蔡英文高出11.2个百分点。而自媒体中的意见领袖对蔡英文及洪秀柱的提及度相差较大,洪秀柱的提及率为91.7%,远高於蔡英文的50%。」

也就是这原始文章的引用者(我查过中评智库的原文并不是这样写的)天真的以为美国大亨川普(Donald Trump)在发表了墨西哥人都是强暴犯小偷之後,引起举国譁然,各意见领袖争相批评嘲笑讽刺,这是一种媒体声量和自媒体的领先?川普的谋士会跳出来说真是太好了,这样我们最近领先希拉蕊非常多,远高於她50%?

简单下个结论就是,并非用大数据三个字包装的就是正确,就是领先,数据是中立的,要怎麽扭曲是你家的事,但是拿来对自己加油打气,小心打气过头搞不清楚真正的状况了啊!

关键字:数据中心工读生

本文摘自:中国大数据

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^