当前位置:大数据业界动态 → 正文

白话大数据

责任编辑:editor004 |来源:企业网D1Net  2014-06-11 13:55:37 本文摘自:互联网周刊

我们所做的任何一件事都会(将会)留下一条可追踪的数字轨迹(或称数据),而这条轨迹能够被我们或他人利用和分析,这便是大数据存在的前提。

坦白地讲,我并不喜欢“大数据(Big Data)”这个词,听起来太过技术化,又有些空洞,但大数据的威力却是我们无论如何都无法忽视的,并将深刻地影响我们每个人的生活。

我们所做的任何一件事都会(将会)留下一条可追踪的数字轨迹(或称数据),而这条轨迹能够被我们或他人利用和分析,这便是大数据存在的前提。通过捕获和分析大数据,我们能够在短短几分钟内解密人类的DNA,找到治愈癌症的良药,精确预测人类行为,于无声中挫败恐怖袭击,进行精准营销,预防流行性疾病的发生等。当然,正如多数新生事物一样,大数据也具有两面性,既能造福于全人类,也能带来灾难性的后果。

大数据的应用与我们抓取分析当下产生的数据的能力息息相关。若能全面利用这些庞杂的数据,我们便可以理解周围的世界,以及存在于其中的万事万物。你可能质疑:这些内容有什么新鲜的吗?一些公司和机构不是一直在抓取和分析数据吗?的确如此,但有两个因素正发生着质的变化,这也是“大数据”之所以成为大数据的根本原因:

我们生成的新数据的体量变得空前庞大——我将其称之为世界的“数据化”。

我们分析大量数据,处理多种复杂数据的能力在近年来获得了突飞猛进的发展。

世界的全面数据化

所有活动和行为(人类行为或其他行为)都将会留下可追踪的数字轨迹(这一想法让人瞬间感到后背发凉,有种深深的不安):

人与人之间的信息交流越来越多地留下数字记录:我们的邮件存储在公司的系统中,我们在社交媒体的状态更新被备份存档,我们的通话被转换成数据信息保存起来。

我们参加的活动正越来越多地被数据归档:在数据化的世界里,我们所做的任何事情几乎都会留下一条数字尾巴。例如,浏览器会记录我们的搜索和访问历史,网站会记录我们的每一次鼠标点击行为,以及我们何时购买了哪种商品和服务,分享了哪张图片和文章,对哪则笑话或视频点了赞。当我们阅读电子书,听音乐时,设备会记录我们所阅读的书籍,所听的音乐,以及相应的频次,除了收集这些信息,厂商甚至还会将其共享。当我们使用信用卡或储蓄卡进行支付转账时,这些信息也会被记录下来。

现在,绝大多数照片和视频的拍摄和存储都是数字化的。想想世界上每天数以百万小时计的监控录像你就会发现这个世界有多么的可怕。此外,我们更加依赖用手机和数码相机拍摄视频和照片,这也就直接导致了Youtube每分钟上传的视频时长多大100小时,而Facebook上每分钟上传的照片多达20万张。

智能设备和各类传感器正在变得无孔不入,何时产生了大量的数据:智能手机跟踪监测我们的位置和移动的速度,研究人员在海洋中投放传感器监测温度和洋流,汽车内有传感器监控我们的驾驶行为,货物的包装上也配置了传感器,用以监测货物在供应链中的运输状态。智能手表、Google Glass以及电子计步器都在记录和收集数据。越来越多的设备开始接入互联网,从而进行数据的收集和共享。智能电视和各类电视盒子能够跟踪监测你正在观看的节目,观看的时长,甚至监测电视前坐了几个观众。

读到这里,你可能已经大致明白什么是大数据了。而对于呈指数级增长的数据量,Google的CEO施密特给出了形象具体的说明:“从人类文明的产生到2003年,人类产生的总的数据量为50亿GB,而现在,人类两天便能够产生这么多的数据??此外,数据的生产速度还在不断加快。”

由此可见,人类所产生的数据量已非常人所能想象。另外一件发生变革的事情是,人类已有足够的技术能力分析信息多种复杂的数据,如通话记录,视频和照片信息,以及聊天记录。这也就是人们常说的“大数据”的4V:

Volume-数据体量巨大。

Velocity-数据的产生和传输速速极快(信用卡诈骗交易的监测便是一个很好的例证:银行等机构实时监测数以百万计的交易信息,并辨别其中的非常规交易)。

Variety-数据类型繁多(金融数据、网络日志、音频、视频、图片、传感数据、地理位置信息等等)。

Veracity-数据的真实性,价值密度低如,连续不间断视频监控过程中,可能有用的数据仅仅有一两秒)。

人类当前所拥有的数据量远多于任何时代,数据的形式也愈发复杂多样,传播速度更快,数据的质量和价值也是参差不齐——这又将对我们的世界产生怎样的影响?好在,人类已经开发出了相应的工具,将大体量的数据分解成更小的数据组,从而运用计算机集群去分析和处理。下面是一些大数据分析的应用案例:

FBI正在通过社交网络、摄像探头、通话和短信记录追踪监控罪犯,并预测下一次恐怖袭击。

大型超市则将顾客的购物卡数据和社交网络信息相关联,进而监测和改变用户的购物模式。例如,零售商可以通过检测女性的购物模式,轻易地推测出她是否怀孕,从而能够有针对性地推销婴幼儿用品。

Facebook则通过面部识别技术,将你上传的照片和其他人的进行比对,辨别出哪些人可能是你的朋友。

政客们通过对社交媒体的数据进行分析,确定自己需要在哪些地区加强宣传拉票力度,以赢得下次选举。

通过对棒球和足球比赛视频和传感器数据的分析,改进训练方式和技术,提高运动员的成绩。例如,你可以购买一个内置多达200个传感器的棒球,之后你便能够好的详细的反馈数据,告诉你该如何提高比赛成绩。

像Lady Gaga等歌手通过收集用户的音乐偏好和播放列表,从而确定演唱会的演唱曲目和演唱顺序。

Google的无人驾驶汽车正是通过实时收集大量的传感器和摄像头数据,确保汽车的行驶安全。

我们手机的GPS信息,包括位置和移动速度则被用来实时监测交通状况。

一些公司则通过监测Facebook和Twitter的用户状态更新数据,对其进行情感性分析,进而评估和预测产品销量和品牌价值。

医院的儿科收治了大量的早产儿和婴幼儿患者,这便会产生与之相关的实时数据信息。通过对这些数据进行分析,辨识其中的模式和动态,我们能够在患儿表现出任何症状前的24小时确定感染情况,及早采取预防和救治措施。

绕不开的隐私问题

在讨论大数据时,如果对隐私问题只字不提,那么便是在掩耳盗铃,自欺欺人。对于零售商、信用卡公司、搜索服务提供商、邮件或社交媒体公司在用户隐私数据的使用上,人们已经进行了多方探讨。此外,随着棱镜门的发酵和传播,人们对于大数据愈发谨慎,关于隐私问题的讨论甚嚣尘上。这仍然是一个问题,萦绕在每个人的心头,就像大数据一样,无处不在,却又仿佛无所在。我们在享受大数据所带来的便利的同时,亦须承受其副作用,或许可以用一句流行语来概括:痛并快乐着。

关键字:精准营销TwitterYouTube数据分解

本文摘自:互联网周刊

x 白话大数据 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

白话大数据

责任编辑:editor004 |来源:企业网D1Net  2014-06-11 13:55:37 本文摘自:互联网周刊

我们所做的任何一件事都会(将会)留下一条可追踪的数字轨迹(或称数据),而这条轨迹能够被我们或他人利用和分析,这便是大数据存在的前提。

坦白地讲,我并不喜欢“大数据(Big Data)”这个词,听起来太过技术化,又有些空洞,但大数据的威力却是我们无论如何都无法忽视的,并将深刻地影响我们每个人的生活。

我们所做的任何一件事都会(将会)留下一条可追踪的数字轨迹(或称数据),而这条轨迹能够被我们或他人利用和分析,这便是大数据存在的前提。通过捕获和分析大数据,我们能够在短短几分钟内解密人类的DNA,找到治愈癌症的良药,精确预测人类行为,于无声中挫败恐怖袭击,进行精准营销,预防流行性疾病的发生等。当然,正如多数新生事物一样,大数据也具有两面性,既能造福于全人类,也能带来灾难性的后果。

大数据的应用与我们抓取分析当下产生的数据的能力息息相关。若能全面利用这些庞杂的数据,我们便可以理解周围的世界,以及存在于其中的万事万物。你可能质疑:这些内容有什么新鲜的吗?一些公司和机构不是一直在抓取和分析数据吗?的确如此,但有两个因素正发生着质的变化,这也是“大数据”之所以成为大数据的根本原因:

我们生成的新数据的体量变得空前庞大——我将其称之为世界的“数据化”。

我们分析大量数据,处理多种复杂数据的能力在近年来获得了突飞猛进的发展。

世界的全面数据化

所有活动和行为(人类行为或其他行为)都将会留下可追踪的数字轨迹(这一想法让人瞬间感到后背发凉,有种深深的不安):

人与人之间的信息交流越来越多地留下数字记录:我们的邮件存储在公司的系统中,我们在社交媒体的状态更新被备份存档,我们的通话被转换成数据信息保存起来。

我们参加的活动正越来越多地被数据归档:在数据化的世界里,我们所做的任何事情几乎都会留下一条数字尾巴。例如,浏览器会记录我们的搜索和访问历史,网站会记录我们的每一次鼠标点击行为,以及我们何时购买了哪种商品和服务,分享了哪张图片和文章,对哪则笑话或视频点了赞。当我们阅读电子书,听音乐时,设备会记录我们所阅读的书籍,所听的音乐,以及相应的频次,除了收集这些信息,厂商甚至还会将其共享。当我们使用信用卡或储蓄卡进行支付转账时,这些信息也会被记录下来。

现在,绝大多数照片和视频的拍摄和存储都是数字化的。想想世界上每天数以百万小时计的监控录像你就会发现这个世界有多么的可怕。此外,我们更加依赖用手机和数码相机拍摄视频和照片,这也就直接导致了Youtube每分钟上传的视频时长多大100小时,而Facebook上每分钟上传的照片多达20万张。

智能设备和各类传感器正在变得无孔不入,何时产生了大量的数据:智能手机跟踪监测我们的位置和移动的速度,研究人员在海洋中投放传感器监测温度和洋流,汽车内有传感器监控我们的驾驶行为,货物的包装上也配置了传感器,用以监测货物在供应链中的运输状态。智能手表、Google Glass以及电子计步器都在记录和收集数据。越来越多的设备开始接入互联网,从而进行数据的收集和共享。智能电视和各类电视盒子能够跟踪监测你正在观看的节目,观看的时长,甚至监测电视前坐了几个观众。

读到这里,你可能已经大致明白什么是大数据了。而对于呈指数级增长的数据量,Google的CEO施密特给出了形象具体的说明:“从人类文明的产生到2003年,人类产生的总的数据量为50亿GB,而现在,人类两天便能够产生这么多的数据??此外,数据的生产速度还在不断加快。”

由此可见,人类所产生的数据量已非常人所能想象。另外一件发生变革的事情是,人类已有足够的技术能力分析信息多种复杂的数据,如通话记录,视频和照片信息,以及聊天记录。这也就是人们常说的“大数据”的4V:

Volume-数据体量巨大。

Velocity-数据的产生和传输速速极快(信用卡诈骗交易的监测便是一个很好的例证:银行等机构实时监测数以百万计的交易信息,并辨别其中的非常规交易)。

Variety-数据类型繁多(金融数据、网络日志、音频、视频、图片、传感数据、地理位置信息等等)。

Veracity-数据的真实性,价值密度低如,连续不间断视频监控过程中,可能有用的数据仅仅有一两秒)。

人类当前所拥有的数据量远多于任何时代,数据的形式也愈发复杂多样,传播速度更快,数据的质量和价值也是参差不齐——这又将对我们的世界产生怎样的影响?好在,人类已经开发出了相应的工具,将大体量的数据分解成更小的数据组,从而运用计算机集群去分析和处理。下面是一些大数据分析的应用案例:

FBI正在通过社交网络、摄像探头、通话和短信记录追踪监控罪犯,并预测下一次恐怖袭击。

大型超市则将顾客的购物卡数据和社交网络信息相关联,进而监测和改变用户的购物模式。例如,零售商可以通过检测女性的购物模式,轻易地推测出她是否怀孕,从而能够有针对性地推销婴幼儿用品。

Facebook则通过面部识别技术,将你上传的照片和其他人的进行比对,辨别出哪些人可能是你的朋友。

政客们通过对社交媒体的数据进行分析,确定自己需要在哪些地区加强宣传拉票力度,以赢得下次选举。

通过对棒球和足球比赛视频和传感器数据的分析,改进训练方式和技术,提高运动员的成绩。例如,你可以购买一个内置多达200个传感器的棒球,之后你便能够好的详细的反馈数据,告诉你该如何提高比赛成绩。

像Lady Gaga等歌手通过收集用户的音乐偏好和播放列表,从而确定演唱会的演唱曲目和演唱顺序。

Google的无人驾驶汽车正是通过实时收集大量的传感器和摄像头数据,确保汽车的行驶安全。

我们手机的GPS信息,包括位置和移动速度则被用来实时监测交通状况。

一些公司则通过监测Facebook和Twitter的用户状态更新数据,对其进行情感性分析,进而评估和预测产品销量和品牌价值。

医院的儿科收治了大量的早产儿和婴幼儿患者,这便会产生与之相关的实时数据信息。通过对这些数据进行分析,辨识其中的模式和动态,我们能够在患儿表现出任何症状前的24小时确定感染情况,及早采取预防和救治措施。

绕不开的隐私问题

在讨论大数据时,如果对隐私问题只字不提,那么便是在掩耳盗铃,自欺欺人。对于零售商、信用卡公司、搜索服务提供商、邮件或社交媒体公司在用户隐私数据的使用上,人们已经进行了多方探讨。此外,随着棱镜门的发酵和传播,人们对于大数据愈发谨慎,关于隐私问题的讨论甚嚣尘上。这仍然是一个问题,萦绕在每个人的心头,就像大数据一样,无处不在,却又仿佛无所在。我们在享受大数据所带来的便利的同时,亦须承受其副作用,或许可以用一句流行语来概括:痛并快乐着。

关键字:精准营销TwitterYouTube数据分解

本文摘自:互联网周刊

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^