当前位置:大数据业界动态 → 正文

管理大数据需要了解面临的挑战

责任编辑:editor007 作者:Harris编译 |来源:企业网D1Net  2016-07-13 23:28:04 本文摘自:机房360

如今,我们每天有多少数据处理?每年将产生多少数据?这一数字变化如此之快,每一年或两年翻一番,人们只能从知情人士获得最佳的估计数量。而这些透露消息的人士,其中大部分都是在组织中数据管理领域的杰出人物,他们所估计这个数字如此之高,这几乎让人不可能想象。根据全球市场调查机构IDC公司称,在2011年,我们大约创造了1.8泽字节的数据,换而言之就是1.8万亿千兆字节的信息。他们继续说,在2012年,我们创造了2.8泽字节的信息。此外,他们说,到2020年,我们将产生40泽字节的信息。

据IBM公司估计,我们现在每天创建了2.50亿千兆字节的数据。

这种大规模的数据集被称为大数据。大数据是已经成为非常流行的一个术语,以皮字节和艾字节表示和描述数据集,并且其有时施加到数据集的技术,并处理它的应用设置。

对于这篇文章的目的,我们将限制定义一个描述巨大的数据量。在2014年9月AIP会议议事程序中,安德列德·毛罗,马可·格雷科,米歇尔·格里马尔迪为我们提供了一个更具体的和健壮的定义:“大数据代表着这种高容量的信息资产的特征,通过各种需要特定的技术和分析方法,将其转变为价值”。

注意,这个定义是很重要的。它不仅是数据的数量,或体积,而且还有速度,也就是服务和消耗的速度。数据流已经改变了我们对存储和交付数据的看法,并放置在基础设施和应用程序引擎中,而以前难以想象要求能这样做。

一个更近的维基百科定义了“体积,速度和品种”短语,并添加到另外两个额外的“V”的概念,这两者都与大数据所面临的挑战非常相关的:变异性和准确性。

数据采集及其应用

随着互联网的出现和使用大数据的人数成倍增长,收集大量数据的能力也与之一起成长。数据收集发生几乎一样的其他计算活动的副作用。在我们采取的过程中,数据在创建帐户,上传文件,以及产生其他明显的行动。然而,数据也被无意提交收集,因为一些其它活性的副产品。一个看似私人的行为,如点击一个链接,对于营销人员就可以提供一个有价值的信息。因此,数据正在被记录和存储。并且在某处进行处理。

而计算机对于工作人员处理信息是优秀的,但没过多久,营销等行业实现保留供收集数据的大量的潜力,因为它是在网络上传来传去,最引人注目的是互联网(虽然重要的是记住很多大数据,并将其存储在企业的内部网)。当该数据与其他数据,例如人口统计信息,一个人的YouTube的喜好,地理位置,社会行为与Outlook配对,这个数据变得更加强大。

其他行业也意识到,他们在收集和处理信息方面从来没有见过这样大的规模。不仅互联网,而且企业和其他实体的内部网络可以容纳大量的信息。在美国、印度和其他地方的政府已经能够运行更精细的数据调整,以赢得选举。国际组织收集和使用医疗保健、生产力,以及就业数据,以帮助他们了解发展资金是最好的花费。私营部门在许多方面使用大数据,包括交易数据和分析。科学研究涉及到大数据分析,例如,大型强子对撞机的科研活动,以及超大型望远镜(VLT)阵列的数据返回。此外,大数据改变了制造业,通过提供生产、需求、足够的数据,分析师将了解是什么导致短缺和过剩,并对以前难以确定行为和计划进行可用性分析。

数据记录的泽字节是一回事,数据采集方便又便宜。当你认为你正在做别的事情的时候,数据收集正在发生。而我们如何利用它是一个完全不同的问题,也是任何组织所面临的最大挑战之一,从企业营销到政府部门,将考虑如何有效地使用这样大量的数据。

德毛罗等人所描述的数据的品种是大数据的关键特征之一。数据源无处不在,并收集所有类型的信息,其中一些应该被认为是敏感的,需要安全处理。随着各种各样的数据到来,这意味着来自不同来源的数据,格式和可访问性,即使是相同的信息,也可能是不同的。最后,数据的可靠性和准确性,是数据分析人员必须关注的重点。“脏数据”一直是数据库管理的一个问题,但这个问题与今天的环境指数相乘,具有更高的容量,并提供数据多源。

当它被成功地分析,大数据可以帮助科学家解码DNA,它可以帮助政府预测恐怖活动,它可以调整企业的产品结构,以满足客户的需求。

但面对这样的数据采集,持有人的问题是将如何利用它?并且越来越多,我们如何对此保证安全?

挑战和安全

如今,人们所面临的安全漏洞一直是很严重的,但大数据的安全漏洞可能是灾难性的。数据收集可以包括非常敏感和极其隐秘的个人信息,这将成为身份盗窃和恶意操纵的潜在数据。随着企业开发他们的大数据存储和分析系统,安全性必须列于他们的优先级名单的首位。

数据分析系统面临着大数据这个第一大挑战是简单的事实,系统和流程都不能处理,我们现在希望定期处理这些数据。存储基础设施相对容易创建:因为存储设备已经成为廉价和可用的,并对其挑战有着相当充分的了解。具分析和使用数据是目前正在开发的高需求,很多企业都已经建立了自己的内部数据分析:谷歌公司在2014年每天处理的信息大约20PB。

关键字:谷歌超大型望远镜

本文摘自:机房360

x 管理大数据需要了解面临的挑战 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

管理大数据需要了解面临的挑战

责任编辑:editor007 作者:Harris编译 |来源:企业网D1Net  2016-07-13 23:28:04 本文摘自:机房360

如今,我们每天有多少数据处理?每年将产生多少数据?这一数字变化如此之快,每一年或两年翻一番,人们只能从知情人士获得最佳的估计数量。而这些透露消息的人士,其中大部分都是在组织中数据管理领域的杰出人物,他们所估计这个数字如此之高,这几乎让人不可能想象。根据全球市场调查机构IDC公司称,在2011年,我们大约创造了1.8泽字节的数据,换而言之就是1.8万亿千兆字节的信息。他们继续说,在2012年,我们创造了2.8泽字节的信息。此外,他们说,到2020年,我们将产生40泽字节的信息。

据IBM公司估计,我们现在每天创建了2.50亿千兆字节的数据。

这种大规模的数据集被称为大数据。大数据是已经成为非常流行的一个术语,以皮字节和艾字节表示和描述数据集,并且其有时施加到数据集的技术,并处理它的应用设置。

对于这篇文章的目的,我们将限制定义一个描述巨大的数据量。在2014年9月AIP会议议事程序中,安德列德·毛罗,马可·格雷科,米歇尔·格里马尔迪为我们提供了一个更具体的和健壮的定义:“大数据代表着这种高容量的信息资产的特征,通过各种需要特定的技术和分析方法,将其转变为价值”。

注意,这个定义是很重要的。它不仅是数据的数量,或体积,而且还有速度,也就是服务和消耗的速度。数据流已经改变了我们对存储和交付数据的看法,并放置在基础设施和应用程序引擎中,而以前难以想象要求能这样做。

一个更近的维基百科定义了“体积,速度和品种”短语,并添加到另外两个额外的“V”的概念,这两者都与大数据所面临的挑战非常相关的:变异性和准确性。

数据采集及其应用

随着互联网的出现和使用大数据的人数成倍增长,收集大量数据的能力也与之一起成长。数据收集发生几乎一样的其他计算活动的副作用。在我们采取的过程中,数据在创建帐户,上传文件,以及产生其他明显的行动。然而,数据也被无意提交收集,因为一些其它活性的副产品。一个看似私人的行为,如点击一个链接,对于营销人员就可以提供一个有价值的信息。因此,数据正在被记录和存储。并且在某处进行处理。

而计算机对于工作人员处理信息是优秀的,但没过多久,营销等行业实现保留供收集数据的大量的潜力,因为它是在网络上传来传去,最引人注目的是互联网(虽然重要的是记住很多大数据,并将其存储在企业的内部网)。当该数据与其他数据,例如人口统计信息,一个人的YouTube的喜好,地理位置,社会行为与Outlook配对,这个数据变得更加强大。

其他行业也意识到,他们在收集和处理信息方面从来没有见过这样大的规模。不仅互联网,而且企业和其他实体的内部网络可以容纳大量的信息。在美国、印度和其他地方的政府已经能够运行更精细的数据调整,以赢得选举。国际组织收集和使用医疗保健、生产力,以及就业数据,以帮助他们了解发展资金是最好的花费。私营部门在许多方面使用大数据,包括交易数据和分析。科学研究涉及到大数据分析,例如,大型强子对撞机的科研活动,以及超大型望远镜(VLT)阵列的数据返回。此外,大数据改变了制造业,通过提供生产、需求、足够的数据,分析师将了解是什么导致短缺和过剩,并对以前难以确定行为和计划进行可用性分析。

数据记录的泽字节是一回事,数据采集方便又便宜。当你认为你正在做别的事情的时候,数据收集正在发生。而我们如何利用它是一个完全不同的问题,也是任何组织所面临的最大挑战之一,从企业营销到政府部门,将考虑如何有效地使用这样大量的数据。

德毛罗等人所描述的数据的品种是大数据的关键特征之一。数据源无处不在,并收集所有类型的信息,其中一些应该被认为是敏感的,需要安全处理。随着各种各样的数据到来,这意味着来自不同来源的数据,格式和可访问性,即使是相同的信息,也可能是不同的。最后,数据的可靠性和准确性,是数据分析人员必须关注的重点。“脏数据”一直是数据库管理的一个问题,但这个问题与今天的环境指数相乘,具有更高的容量,并提供数据多源。

当它被成功地分析,大数据可以帮助科学家解码DNA,它可以帮助政府预测恐怖活动,它可以调整企业的产品结构,以满足客户的需求。

但面对这样的数据采集,持有人的问题是将如何利用它?并且越来越多,我们如何对此保证安全?

挑战和安全

如今,人们所面临的安全漏洞一直是很严重的,但大数据的安全漏洞可能是灾难性的。数据收集可以包括非常敏感和极其隐秘的个人信息,这将成为身份盗窃和恶意操纵的潜在数据。随着企业开发他们的大数据存储和分析系统,安全性必须列于他们的优先级名单的首位。

数据分析系统面临着大数据这个第一大挑战是简单的事实,系统和流程都不能处理,我们现在希望定期处理这些数据。存储基础设施相对容易创建:因为存储设备已经成为廉价和可用的,并对其挑战有着相当充分的了解。具分析和使用数据是目前正在开发的高需求,很多企业都已经建立了自己的内部数据分析:谷歌公司在2014年每天处理的信息大约20PB。

关键字:谷歌超大型望远镜

本文摘自:机房360

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^