当前位置:大数据数据分析 → 正文

数据类型质量巨变 大数据分析应开发专门技术

责任编辑:editor004 |来源:企业网D1Net  2015-03-13 13:20:00 本文摘自:中国大数据网

由于资讯化应用的普及,导致数据量的规模已经庞大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的资讯,根据IDC统计,数位世界的资讯容量将会从2009年的0.8ZB,在2020年成长到35ZB,等于每15秒就成长1PB,年复合成长率高达40%,而且这些数据数据不仅巨大而且不同,如何优化数据,方便且容易的搜寻到所需要的资讯,也变得更加困难。

因此,如何将数据采矿(Data Mining)的技术有效的应用在大数据(Big Data)中,快速萃取出未知且有价值的潜在资讯,进而找出市场趋势,创造新的商机,会是未来企业竞争中一项重要的优势与目标。

Google利用运算及线上查询的优势,结合大数据分析,可提供更快速而精确的预测。

大数据

  大数据分析可能会因此改变我们理解及组织社会的方式。

传统数据分析方式无法适用于大数据

值得注意的是,数据采矿的相关技术及应用,早在90年代即已提出,无论是方法抑或是工具都已经相当成熟且完善,但过去数据采矿的工具与模组,往往是以单一机器的环境为对象,而非今日的分散式系统或云端运算环境。事实上,许多在单一的机器上很容易做到的事情,在分散式系统上会变得很难很复杂且困难。

因此,想要分析大数据,不能只是直接援用现有的数据采矿技术及应用,因为大数据分析所需要的数据库管理系统,往往必须在数十、数百甚至数千台伺服器上同时运行。根据KDnuggets网站调查,数据采矿分析使用平均约1~10GB的数据大小,与动辄数据量超过TB等级的大数据,差异非常的大。故数据探勘以往所能处理的数据,充其量只能称为「大」数据,而非「巨量」数据。

除了量的变化外,目前的数据类型,也已经超越传统数据库或现有数据管理工具能够处理的范围。因为在爆炸性的数据增长过程中,结构性数据的成长相当缓慢,反观非结构性的数据,包括视讯、网页、智慧型手机、消费数据、位置数据、财务服务数据,以及社会媒体数据等。

而目前的数据库解决方案,主要是用来设计储存结构化数据,除了只能针对已知问题的回答速度进行优化外,架构本身往往就决定了内容形式,对于新数据型态与新问题,都有适应上的困难,加上扩展成本高昂,企业势必得寻求不同以往的数据处理解决方案,才能面对爆炸性的数据增长。

大数据分析能力的四大原则

历经过去几年在技术上与观念上的进展,大数据分析已经成为公私部门组织的竞争利器之一,甚至逐渐形成了跨越统计、资讯科技、行政管理等领域的数据科学领域。

由于大数据的特性难以用传统分析方法进行分析,必须用进阶的技术和演算法来解读、储存、分析与管理,如何培育并善用兼具Volume(数据数据的大量)、Velocity(数据分析的时效)、Variety(数据格式的多样)与Veracity(数据内容的真实)所谓4V特质的大数据分析能力,也逐渐成为跨越统计、资讯、与特定业务领域的共同议题。

如新型禽流感疫情在2009年开始快速蔓延时,美国疾病管制局(Centers for Disease Control;CDC)要求医生必须通报新型流感的病例,但传统的报送作业方式往往需要约两个星期的时间,这样的速度也会让公共卫生机构错失防疫的先机。

Google工程师曾在科学期刊Natural发表有关流感的研究指出,他们将Google每天300万个与禽流感相关的搜寻关键字,与CDC从2007到2008年的实际禽流感染案例,透过数学演算法进行相关性分析比对,最後找出45个与实际发生禽流感案例有很强相关性的搜寻项目组合,只要在特定区域发现这些搜寻项目组合,发生禽流感的案例也会随之增多。

Google利用运算及线上查询的优势,提供更快速而精确的预测,协助公共卫生机构掌握疫情资讯,可见单单只有储存数据量庞大是没有任何用处的,因为数据并不会自己进行分析,想要从大量的资讯中得到价值,必须要找到新技术。

如位置讯息也是大数据分析一个非常重要的分析标的,大数据若能结合地理资讯系统,除了「人」的位置资讯以外,「物体」的位置也可以利用这类的装置进行大量的蒐集,这些讯息也成为重要的分析数据,让用户的地理位置变成非常宝贵的数据。

亚马逊(Amazon)在思考如何根据个别的消费习性,推荐特定的商品给消费者时,本来是用传统的分析方法,直接从巨量的客户数据中抽样後,再分析客户之间的相似度,但分析结果提供的建议却很粗糙,如消费者只是购买一项婴儿用品,系统却只是推荐一大堆相类似产品。

亚马逊後来意识到,系统不应该去比较客户,而是要找出产品之间的关连,必须用到全部的数据,并在事前完成计算,才能够在客户购物时,很快地给出适当建议,结果也比先前成功,如喜爱A作者的读者,未必会喜欢A作者全部的书,但经由关连分析後,却可能会发现喜爱A作者的人,多半同时会喜欢B作者的书,这样的大数据交叉分析,才会带来更大的效益。

改变理解及组织社会的方式

虽然现在蒐集数据要比以前容易许多,但也因为数量前所未有的庞大,必须要找到一种大数据的分析方法,才能够混和数据采矿过程,蒐集相关数据,进行相关分析,并找到真正可以操作的KPI,才会有很大的机会,找到分析标的的改善重点及方法,这也才是大数据分析应用的价值所在。

总上所述,大数据分析方法需要注意3个重点,并因此改变我们理解及组织社会的方式,第一大改变是能够取得、分析的数据量大为增加,使用所有数据分析,而非抽样筛选,可以让我们清楚看见数据中最细致的地方;第二大改变是不再坚持一切都要做到精准,大数据分析虽可减少抽样造成的误差,仍必须对于测量上的误差,给予一定程度的妥协,放弃百分之一百的精确;第三大改变是放下长久以来对于因果关系的坚持,而专注于发现事物的相关性,只找寻事情「正是如此」的答案,而不一定要了解某件事「为何如此」。

由此可知,对一个组织而言,大数据分析的最重要价值有二,其一是分析使用(analytical use),透过大数据分析,揭露数据隐藏的洞见,如顾客之间的同侪影响、消费者的交易习惯以及社会及空间数据的关系,这些洞见在过去往往因为数据分析的成本太高而被忽视;其二是开发新产品,大数据分析可以即时的处理与分析数据,以发现新的需求而刺激服务或产品的创新。

原文链接:http://www.thebigdata.cn/YeJieDongTai/13700.html

关键字:数据隐藏KDnuggets数据增长

本文摘自:中国大数据网

x 数据类型质量巨变 大数据分析应开发专门技术 扫一扫
分享本文到朋友圈
当前位置:大数据数据分析 → 正文

数据类型质量巨变 大数据分析应开发专门技术

责任编辑:editor004 |来源:企业网D1Net  2015-03-13 13:20:00 本文摘自:中国大数据网

由于资讯化应用的普及,导致数据量的规模已经庞大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的资讯,根据IDC统计,数位世界的资讯容量将会从2009年的0.8ZB,在2020年成长到35ZB,等于每15秒就成长1PB,年复合成长率高达40%,而且这些数据数据不仅巨大而且不同,如何优化数据,方便且容易的搜寻到所需要的资讯,也变得更加困难。

因此,如何将数据采矿(Data Mining)的技术有效的应用在大数据(Big Data)中,快速萃取出未知且有价值的潜在资讯,进而找出市场趋势,创造新的商机,会是未来企业竞争中一项重要的优势与目标。

Google利用运算及线上查询的优势,结合大数据分析,可提供更快速而精确的预测。

大数据

  大数据分析可能会因此改变我们理解及组织社会的方式。

传统数据分析方式无法适用于大数据

值得注意的是,数据采矿的相关技术及应用,早在90年代即已提出,无论是方法抑或是工具都已经相当成熟且完善,但过去数据采矿的工具与模组,往往是以单一机器的环境为对象,而非今日的分散式系统或云端运算环境。事实上,许多在单一的机器上很容易做到的事情,在分散式系统上会变得很难很复杂且困难。

因此,想要分析大数据,不能只是直接援用现有的数据采矿技术及应用,因为大数据分析所需要的数据库管理系统,往往必须在数十、数百甚至数千台伺服器上同时运行。根据KDnuggets网站调查,数据采矿分析使用平均约1~10GB的数据大小,与动辄数据量超过TB等级的大数据,差异非常的大。故数据探勘以往所能处理的数据,充其量只能称为「大」数据,而非「巨量」数据。

除了量的变化外,目前的数据类型,也已经超越传统数据库或现有数据管理工具能够处理的范围。因为在爆炸性的数据增长过程中,结构性数据的成长相当缓慢,反观非结构性的数据,包括视讯、网页、智慧型手机、消费数据、位置数据、财务服务数据,以及社会媒体数据等。

而目前的数据库解决方案,主要是用来设计储存结构化数据,除了只能针对已知问题的回答速度进行优化外,架构本身往往就决定了内容形式,对于新数据型态与新问题,都有适应上的困难,加上扩展成本高昂,企业势必得寻求不同以往的数据处理解决方案,才能面对爆炸性的数据增长。

大数据分析能力的四大原则

历经过去几年在技术上与观念上的进展,大数据分析已经成为公私部门组织的竞争利器之一,甚至逐渐形成了跨越统计、资讯科技、行政管理等领域的数据科学领域。

由于大数据的特性难以用传统分析方法进行分析,必须用进阶的技术和演算法来解读、储存、分析与管理,如何培育并善用兼具Volume(数据数据的大量)、Velocity(数据分析的时效)、Variety(数据格式的多样)与Veracity(数据内容的真实)所谓4V特质的大数据分析能力,也逐渐成为跨越统计、资讯、与特定业务领域的共同议题。

如新型禽流感疫情在2009年开始快速蔓延时,美国疾病管制局(Centers for Disease Control;CDC)要求医生必须通报新型流感的病例,但传统的报送作业方式往往需要约两个星期的时间,这样的速度也会让公共卫生机构错失防疫的先机。

Google工程师曾在科学期刊Natural发表有关流感的研究指出,他们将Google每天300万个与禽流感相关的搜寻关键字,与CDC从2007到2008年的实际禽流感染案例,透过数学演算法进行相关性分析比对,最後找出45个与实际发生禽流感案例有很强相关性的搜寻项目组合,只要在特定区域发现这些搜寻项目组合,发生禽流感的案例也会随之增多。

Google利用运算及线上查询的优势,提供更快速而精确的预测,协助公共卫生机构掌握疫情资讯,可见单单只有储存数据量庞大是没有任何用处的,因为数据并不会自己进行分析,想要从大量的资讯中得到价值,必须要找到新技术。

如位置讯息也是大数据分析一个非常重要的分析标的,大数据若能结合地理资讯系统,除了「人」的位置资讯以外,「物体」的位置也可以利用这类的装置进行大量的蒐集,这些讯息也成为重要的分析数据,让用户的地理位置变成非常宝贵的数据。

亚马逊(Amazon)在思考如何根据个别的消费习性,推荐特定的商品给消费者时,本来是用传统的分析方法,直接从巨量的客户数据中抽样後,再分析客户之间的相似度,但分析结果提供的建议却很粗糙,如消费者只是购买一项婴儿用品,系统却只是推荐一大堆相类似产品。

亚马逊後来意识到,系统不应该去比较客户,而是要找出产品之间的关连,必须用到全部的数据,并在事前完成计算,才能够在客户购物时,很快地给出适当建议,结果也比先前成功,如喜爱A作者的读者,未必会喜欢A作者全部的书,但经由关连分析後,却可能会发现喜爱A作者的人,多半同时会喜欢B作者的书,这样的大数据交叉分析,才会带来更大的效益。

改变理解及组织社会的方式

虽然现在蒐集数据要比以前容易许多,但也因为数量前所未有的庞大,必须要找到一种大数据的分析方法,才能够混和数据采矿过程,蒐集相关数据,进行相关分析,并找到真正可以操作的KPI,才会有很大的机会,找到分析标的的改善重点及方法,这也才是大数据分析应用的价值所在。

总上所述,大数据分析方法需要注意3个重点,并因此改变我们理解及组织社会的方式,第一大改变是能够取得、分析的数据量大为增加,使用所有数据分析,而非抽样筛选,可以让我们清楚看见数据中最细致的地方;第二大改变是不再坚持一切都要做到精准,大数据分析虽可减少抽样造成的误差,仍必须对于测量上的误差,给予一定程度的妥协,放弃百分之一百的精确;第三大改变是放下长久以来对于因果关系的坚持,而专注于发现事物的相关性,只找寻事情「正是如此」的答案,而不一定要了解某件事「为何如此」。

由此可知,对一个组织而言,大数据分析的最重要价值有二,其一是分析使用(analytical use),透过大数据分析,揭露数据隐藏的洞见,如顾客之间的同侪影响、消费者的交易习惯以及社会及空间数据的关系,这些洞见在过去往往因为数据分析的成本太高而被忽视;其二是开发新产品,大数据分析可以即时的处理与分析数据,以发现新的需求而刺激服务或产品的创新。

原文链接:http://www.thebigdata.cn/YeJieDongTai/13700.html

关键字:数据隐藏KDnuggets数据增长

本文摘自:中国大数据网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^