当前位置:大数据业界动态 → 正文

大数据:泛滥信息中的预测性

责任编辑:editor004 |来源:企业网D1Net  2017-09-08 12:24:40 本文摘自:中国经济网

  信息革命:让一切事物都数据化

所有可计算的都要计算,所有可测量的都要测量,对那些不可测量的,要想办法让其变得可测量。

——伽利略

某些历史学家称,人类正在经历农业革命和工业革命后的第三次革命,即信息革命。IBM著名预测分析科学家科林·席勒形象地表示,信息革命的关键就是“让一切事物都数据化”。在信息时代,你所做的每个在线甚至线下动作都会被记录再案,无论是商业交易、访问网站、点击链接、观看电影、给朋友打电话……都会被有记录。每天,你的四周都充斥着信息传递装置。移动终端、自动机器以及海运集装箱,它们会记录位移信息、交互作用、库存盘点以及辐射水平。 个人健康系统会记录你的脉搏以及日常锻炼情况。现在,大量的桌面应用程序都更新为“云计算”,这使得你在电脑上的每一步操作都被记录下来。

数据中蕴含着人类行为的基本信息。诚然,数字编码从深度和广度上完全捕捉人类经验,但这并不是问题。企业会记录那些与其经验紧密相关的人类行为,因此尽管了解人类日常生活是一项艰巨的任务,但企业界早已率先为预测分析提供了宝贵的原始素材,那就是:从无穷复杂的日常生活中总结规律,然后确定生活中哪些细节最显著。

世界打开了一个全新的窗口。美国麻省理工学院的经济学家埃里克·布林约尔松教授将这种对人类行为的大规模记录、观察与历史上另一种具有划时代意义的观测工具的问世联系在一起,“几百年前,人类发明了显微镜,由此可以观测此前从来不能看到的细胞层面的活动”。《纽约时报》这样解释布林约尔松教授的观点。“这是观测史上的革命。数据观测技术就是现代的显微镜。”但与用显微镜来观测细小事物不同,我们通过数据观测来看清此前人类无法统观的宏大图景。

数据泛滥

现在,世界上的照片数量超过了板砖数量。

——现代艺术博物馆摄影部主任约翰·萨科夫斯基,1976年

现在,YouTube上每秒钟都会有1小时的视频内容上传,而万维网目前预计有83.2亿个网页。 每小时都有数百个网络交易。现在,世界上每小时拍摄的照片都要超过照相技术发明之后100年内的照片数量总和,每两分钟拍的照片数量要超过19世纪所拍摄的照片数量总和;每天, Facebook上都有超过2亿张照片上传。飞秒摄影技术每秒钟可拍摄数万亿张图片,以记录这个世界(有关每个例子的出处,请登录网站www.PredictiveNotes.com)。捕捉用户数据的移动设备超过70亿台。每秒钟有超过 100 个装置接入互联网,而且这个数字还在增长。 思科预测,到2020年,“万联网”(Internetof Everything)会连接500亿个装置。

总而言之,数据正在以难以想象的速度膨胀,现在每天新产生的数据量高达 2.5 个艾字节。 一个艾字节是1后面加18个0。1986年,如果把电脑里储存的所有数据双面打印出来,其面积将足以覆盖地球陆地表面这种增长是呈几何级的,现在,数据总量每三年就会翻一番。

你应该承认,现在,大数据最具权威性。在每篇新闻报道中,在每次科学演示中,在每个分析解决方案的广告词中,大数据都是关键词。这是危机,是机遇,是机遇的危机,危机的机遇!

大数据不是真实的存在。数据最激动人心的不是其数量,而是其增长速度。我们会永远敬畏数据的庞大数量,因为有一点永远不会变,那就是:今天的数据必然比昨天多。规模是相对的,而不是绝对的。如果我们今天使用“大”,那么很快,我们的形容词就会不够用了:“大数据”、“更大数据”、“再大数据” 以及“最大数据”。其实,早在 1975 年,一个名为“国际超大型数据库大会” 的组织就已成立。在海量数据面前,我们的词汇量显得如此匮乏。

那么,接下来的问题是,我们要如何处理这些数据才能获得最大的价值?

数据效应:数据天生具有预测性

小腿骨连着膝盖骨

膝盖骨连着大腿骨

大腿骨连着你的骨盆

——《小骨头之歌》歌词

数据简直铺天盖地,但这又如何?谁又能保证这堆企业机构经营的副产品能创造价值呢?这些只不过是无穷无尽的记录列表,是对过去发生的事物进行的强迫性的记忆堆积。

世上万物均有关联,只不过有些是间接关系,这在数据中也有所反映。例如:

? 你的购买行为与你的消费历史、 在线习惯、 支付方式以及社会交往人群相关。 数据能从这些因素中预测出消费者的行为。

? 你的身体健康状况与选择和环境有关, 因此数据能通过小区以及家庭规模等信息来预测你的健康状态。

? 你对工作的满意程度与你的工资水平、 表现评定以及升职情况相关, 而数据能反映这些现实。

? 经济行为与人类情感相关, 正如下文所述, 数据也将反映这种关系。

预测常常从小处入手。预测分析是从预测变量开始的,这是对个人单一值的评测。近期性就是一个常见的变量,表示某人最近一次购物、最近一次犯罪或最近一次发病到现在的时间,越接近现在,观察对象再次采取行动的概率就越高。许多模型的应用都是从近期表现最活跃的人群开始的,无论是试图建立联系、开展犯罪调查还是进行医疗诊断。

与此相似,频率—描述某人做出相同行为的次数也是常见且富有成效的指标。如果有人此前经常做某事,那么他再次做这件事的概率就会很高。实际上,预测就是根据人的过去行为来预见其未来行为。因此,预测分析模型不仅要靠那些枯燥的基本人口数据,例如住址、性别等,也要涵盖近期性、频率、购买行为、经济行为以及电话和上网等产品使用习惯之类的行为预测变量。这些行为通常是最有价值的,因为我们要预测的就是未来是否还会出现这些行为,这就是通过行为来预测行为的过程。正如哲学家萨特所言:“人的自我由其行为决定。”

预测分析系统会综合考虑数十项甚至数百项预测变量。 你要把个人的全部已知数据都输入系统, 然后等着系统运转。系统内综合考量这些因素的核心学习技术正是科学的魔力所在。

关键字:1986年预测分析

本文摘自:中国经济网

x 大数据:泛滥信息中的预测性 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据:泛滥信息中的预测性

责任编辑:editor004 |来源:企业网D1Net  2017-09-08 12:24:40 本文摘自:中国经济网

  信息革命:让一切事物都数据化

所有可计算的都要计算,所有可测量的都要测量,对那些不可测量的,要想办法让其变得可测量。

——伽利略

某些历史学家称,人类正在经历农业革命和工业革命后的第三次革命,即信息革命。IBM著名预测分析科学家科林·席勒形象地表示,信息革命的关键就是“让一切事物都数据化”。在信息时代,你所做的每个在线甚至线下动作都会被记录再案,无论是商业交易、访问网站、点击链接、观看电影、给朋友打电话……都会被有记录。每天,你的四周都充斥着信息传递装置。移动终端、自动机器以及海运集装箱,它们会记录位移信息、交互作用、库存盘点以及辐射水平。 个人健康系统会记录你的脉搏以及日常锻炼情况。现在,大量的桌面应用程序都更新为“云计算”,这使得你在电脑上的每一步操作都被记录下来。

数据中蕴含着人类行为的基本信息。诚然,数字编码从深度和广度上完全捕捉人类经验,但这并不是问题。企业会记录那些与其经验紧密相关的人类行为,因此尽管了解人类日常生活是一项艰巨的任务,但企业界早已率先为预测分析提供了宝贵的原始素材,那就是:从无穷复杂的日常生活中总结规律,然后确定生活中哪些细节最显著。

世界打开了一个全新的窗口。美国麻省理工学院的经济学家埃里克·布林约尔松教授将这种对人类行为的大规模记录、观察与历史上另一种具有划时代意义的观测工具的问世联系在一起,“几百年前,人类发明了显微镜,由此可以观测此前从来不能看到的细胞层面的活动”。《纽约时报》这样解释布林约尔松教授的观点。“这是观测史上的革命。数据观测技术就是现代的显微镜。”但与用显微镜来观测细小事物不同,我们通过数据观测来看清此前人类无法统观的宏大图景。

数据泛滥

现在,世界上的照片数量超过了板砖数量。

——现代艺术博物馆摄影部主任约翰·萨科夫斯基,1976年

现在,YouTube上每秒钟都会有1小时的视频内容上传,而万维网目前预计有83.2亿个网页。 每小时都有数百个网络交易。现在,世界上每小时拍摄的照片都要超过照相技术发明之后100年内的照片数量总和,每两分钟拍的照片数量要超过19世纪所拍摄的照片数量总和;每天, Facebook上都有超过2亿张照片上传。飞秒摄影技术每秒钟可拍摄数万亿张图片,以记录这个世界(有关每个例子的出处,请登录网站www.PredictiveNotes.com)。捕捉用户数据的移动设备超过70亿台。每秒钟有超过 100 个装置接入互联网,而且这个数字还在增长。 思科预测,到2020年,“万联网”(Internetof Everything)会连接500亿个装置。

总而言之,数据正在以难以想象的速度膨胀,现在每天新产生的数据量高达 2.5 个艾字节。 一个艾字节是1后面加18个0。1986年,如果把电脑里储存的所有数据双面打印出来,其面积将足以覆盖地球陆地表面这种增长是呈几何级的,现在,数据总量每三年就会翻一番。

你应该承认,现在,大数据最具权威性。在每篇新闻报道中,在每次科学演示中,在每个分析解决方案的广告词中,大数据都是关键词。这是危机,是机遇,是机遇的危机,危机的机遇!

大数据不是真实的存在。数据最激动人心的不是其数量,而是其增长速度。我们会永远敬畏数据的庞大数量,因为有一点永远不会变,那就是:今天的数据必然比昨天多。规模是相对的,而不是绝对的。如果我们今天使用“大”,那么很快,我们的形容词就会不够用了:“大数据”、“更大数据”、“再大数据” 以及“最大数据”。其实,早在 1975 年,一个名为“国际超大型数据库大会” 的组织就已成立。在海量数据面前,我们的词汇量显得如此匮乏。

那么,接下来的问题是,我们要如何处理这些数据才能获得最大的价值?

数据效应:数据天生具有预测性

小腿骨连着膝盖骨

膝盖骨连着大腿骨

大腿骨连着你的骨盆

——《小骨头之歌》歌词

数据简直铺天盖地,但这又如何?谁又能保证这堆企业机构经营的副产品能创造价值呢?这些只不过是无穷无尽的记录列表,是对过去发生的事物进行的强迫性的记忆堆积。

世上万物均有关联,只不过有些是间接关系,这在数据中也有所反映。例如:

? 你的购买行为与你的消费历史、 在线习惯、 支付方式以及社会交往人群相关。 数据能从这些因素中预测出消费者的行为。

? 你的身体健康状况与选择和环境有关, 因此数据能通过小区以及家庭规模等信息来预测你的健康状态。

? 你对工作的满意程度与你的工资水平、 表现评定以及升职情况相关, 而数据能反映这些现实。

? 经济行为与人类情感相关, 正如下文所述, 数据也将反映这种关系。

预测常常从小处入手。预测分析是从预测变量开始的,这是对个人单一值的评测。近期性就是一个常见的变量,表示某人最近一次购物、最近一次犯罪或最近一次发病到现在的时间,越接近现在,观察对象再次采取行动的概率就越高。许多模型的应用都是从近期表现最活跃的人群开始的,无论是试图建立联系、开展犯罪调查还是进行医疗诊断。

与此相似,频率—描述某人做出相同行为的次数也是常见且富有成效的指标。如果有人此前经常做某事,那么他再次做这件事的概率就会很高。实际上,预测就是根据人的过去行为来预见其未来行为。因此,预测分析模型不仅要靠那些枯燥的基本人口数据,例如住址、性别等,也要涵盖近期性、频率、购买行为、经济行为以及电话和上网等产品使用习惯之类的行为预测变量。这些行为通常是最有价值的,因为我们要预测的就是未来是否还会出现这些行为,这就是通过行为来预测行为的过程。正如哲学家萨特所言:“人的自我由其行为决定。”

预测分析系统会综合考虑数十项甚至数百项预测变量。 你要把个人的全部已知数据都输入系统, 然后等着系统运转。系统内综合考量这些因素的核心学习技术正是科学的魔力所在。

关键字:1986年预测分析

本文摘自:中国经济网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^