当前位置:安全企业动态 → 正文

EMC研发中心刘伟:大数据=大机遇

责任编辑:sjia |来源:企业网D1Net  2012-06-09 08:00:07 本文摘自:IT专家网

在我们无意识中这个世界已经变成了一个大数据的世界了,我们经常讨论大数据,究竟什么是大数据?近日在2012地理信息开发者大会上,EMC研发中心总经理刘伟接受了记者采访,刘伟认为大数据意味着大机遇。

随着互联网的发展,移动社会的普遍应用,包括Facebook的发展和电子商务、音频、视频、图像广泛的应用,使得每一个个体都变成了巨大数据的创造者。这样这个基数就变成了一个天文数字,而新产生的数据很大一部分是结构化数据和非结构化的数据。回到地理信息系统,地理信息系统是在走入这个大数据行业里面的一个比较前列的行业。随着技术的发展,在测绘领域,新的技术为我们提供了很多新的测绘方法,包括遥感技术、GPS技术、和测量技术等等,它能帮助我们收集更多数据这是好的方面。另一方面也无形中推动了数据量的大发展。

而多媒体信息和传统地理信息的结合也从某种意义上来讲,让地理信息的数据量有了一个跨越式的发展。比如说Google地图,它06年的数据量是70TB,到了2010年已经达到了50万TB,随着新的移动互联网、手机设备和LBS的发展,新的地理信息相关数据衍生出很多新的数据种类和增加了很多数据量。

我们看一下传统上地理信息系统怎么管理和处理这些数据?传统的地理信息系统相对处理数据的种类和类型比较单一、比较简单。主要是矢量数据,就是点、线、面体以及跟矢量数据相关的一些属性、信息。空间数据是利用文件系统来管理,我们用关系数据库来关系这种属性数据。所以文件系统加上关系数据库的系统就变成了一个很典型的地理信息的数据管理系统。这个系统里有一个很明显的问题,就是因为数据是在不同的地方管理,所以造成了在计算效率和数据管理,包括保持数据一致性的时候都有一些困难。所以后来有很多空间数据苦来同时管理空间数据和属性数据。

地理信息发生了很大的变化,不管是从数据量还是数据的种类都跟以前不可同日而语。原来简单空间数据管理已经不太适用了。我们觉得将来的方式对于矢量数据应该考虑大规模并行的空间数据库来进行管理。面对这种大的数据量和多种类的数据,对于地理信息来讲要解决两方面的问题。一个是信息存储问题。因为有这样的数据量,我们信息存储的平台一定要具有这样的特点,第一容量要大,第二扩展性要好,第三就是要能够兼容异构的数据,能够同时的管理结构化和非结构化的数据。数据的管理还有一个很重要的方面就是怎么分析和处理这个数据?这么大的数据,传统的分析方法有限,所以处理数据的时候有几个关键的地方:

第一,一定是分布式的处理方式,通过这个方式以达到更高的处理效果。第二,一定要想办法让我们的分析、让我们的计算更加的靠近数据。这么高的数据分析系统有没有?我们说“可以有”。这是EMC的一个存储系统,这是业界无论是从可靠性还是性能都是最高的。我们看一下它的容量,单一的文件系统可以达到15PB。而这样大的文件系统里面横向的可扩展性能够保证性能即便是这样的大的数据,IO也可以达到1.5兆。

有了数据很好,有了数据可以有很多工作可以做,更重要的是怎么从大量数据中挖掘出来信息。传统的方法都是做结构化的数据,数据量比较小,是TB量级的那时候是纵向扩展,接下来大数据时代,一方面数据既有结构化的,也有非结构化的。所以我们将来的分析平台一定是能兼容结构化和非结构化。同时在分析能量上也要分析到PB量的数据。再有一个分析的形态一定是可扩展的,因为数据量不管是大它还是与时俱进的。怎么样让数据动态适应数据的增长,一定要让系统里有一个可扩展的空间和能力。

举一个例子,EBC分析平台,它有两个核心引擎,一个是Greenplum,它是一个大规模的并行数据库,它有几个很重要的特点,一个是容量大,可以处理PB级数据,另外一个就是可扩展性,我们叫做无共享体系架构。这个体系架构可以部署在一个很多节点构成的数据量,如果我们处理数据两需要扩大,性能需要提高,可以通过增加节点完成工作。数据加载速度可以达到10/秒,因为它是把所有的查询分布到不同的节点进行。这个系统所有的负载均衡都是由系统自动完成的。

还有一点GPDB是支持地理空间数据的数据库。它通过支持PostGIS可以支持空间计算。刚才我们强调了大数据一定要有大数据的分析头脑,GPDB有内置的分析强大功能,通过SQL的一些调用,可以调到很多分析的函数,包括像SVM这些都是在系统里有支持的。

再有一点就是支持全文搜索。这种全文搜索集成了Soir,它可以实现自由文本的全文检索。同时并行的体系架构,在全文搜索中是完全被简化的,搜索的效率非常高。刚才讲的这些都是结构化的数据里面用什么样的方式进行分析。对于非结构化的数据,大数据处理现在最好的方式就是Greenplum HD。它在标准的基础上做了很多改进,特别是性能和可靠性上的改进。比如说增加了数字节点内容,可以增加反应速度和避免一些单节点的问题造成系统的问题。同时增加了一些竞像的配套反应,这些都是根据系统可靠性采用的一些方式。

总的来说Greenplum这个平台是一个大数据完整的分析解决方案,涵盖了所有的数据,不管是结构化数据还是非结构化数据,加上分布式结构体系架构,可以在分析大数据过程中实现高容量高效率。

当前地理信息行业在经历一个很大的转变,这个转变其中有一个方面就是我们要面对的数据是大数据,这对我们所有人来说是一个机会。在以数据为中心的时代,数据非常重要,拥有分析数据、驾驭数据的能力更重要。

关键字:大数据

本文摘自:IT专家网

x EMC研发中心刘伟:大数据=大机遇 扫一扫
分享本文到朋友圈
当前位置:安全企业动态 → 正文

EMC研发中心刘伟:大数据=大机遇

责任编辑:sjia |来源:企业网D1Net  2012-06-09 08:00:07 本文摘自:IT专家网

在我们无意识中这个世界已经变成了一个大数据的世界了,我们经常讨论大数据,究竟什么是大数据?近日在2012地理信息开发者大会上,EMC研发中心总经理刘伟接受了记者采访,刘伟认为大数据意味着大机遇。

随着互联网的发展,移动社会的普遍应用,包括Facebook的发展和电子商务、音频、视频、图像广泛的应用,使得每一个个体都变成了巨大数据的创造者。这样这个基数就变成了一个天文数字,而新产生的数据很大一部分是结构化数据和非结构化的数据。回到地理信息系统,地理信息系统是在走入这个大数据行业里面的一个比较前列的行业。随着技术的发展,在测绘领域,新的技术为我们提供了很多新的测绘方法,包括遥感技术、GPS技术、和测量技术等等,它能帮助我们收集更多数据这是好的方面。另一方面也无形中推动了数据量的大发展。

而多媒体信息和传统地理信息的结合也从某种意义上来讲,让地理信息的数据量有了一个跨越式的发展。比如说Google地图,它06年的数据量是70TB,到了2010年已经达到了50万TB,随着新的移动互联网、手机设备和LBS的发展,新的地理信息相关数据衍生出很多新的数据种类和增加了很多数据量。

我们看一下传统上地理信息系统怎么管理和处理这些数据?传统的地理信息系统相对处理数据的种类和类型比较单一、比较简单。主要是矢量数据,就是点、线、面体以及跟矢量数据相关的一些属性、信息。空间数据是利用文件系统来管理,我们用关系数据库来关系这种属性数据。所以文件系统加上关系数据库的系统就变成了一个很典型的地理信息的数据管理系统。这个系统里有一个很明显的问题,就是因为数据是在不同的地方管理,所以造成了在计算效率和数据管理,包括保持数据一致性的时候都有一些困难。所以后来有很多空间数据苦来同时管理空间数据和属性数据。

地理信息发生了很大的变化,不管是从数据量还是数据的种类都跟以前不可同日而语。原来简单空间数据管理已经不太适用了。我们觉得将来的方式对于矢量数据应该考虑大规模并行的空间数据库来进行管理。面对这种大的数据量和多种类的数据,对于地理信息来讲要解决两方面的问题。一个是信息存储问题。因为有这样的数据量,我们信息存储的平台一定要具有这样的特点,第一容量要大,第二扩展性要好,第三就是要能够兼容异构的数据,能够同时的管理结构化和非结构化的数据。数据的管理还有一个很重要的方面就是怎么分析和处理这个数据?这么大的数据,传统的分析方法有限,所以处理数据的时候有几个关键的地方:

第一,一定是分布式的处理方式,通过这个方式以达到更高的处理效果。第二,一定要想办法让我们的分析、让我们的计算更加的靠近数据。这么高的数据分析系统有没有?我们说“可以有”。这是EMC的一个存储系统,这是业界无论是从可靠性还是性能都是最高的。我们看一下它的容量,单一的文件系统可以达到15PB。而这样大的文件系统里面横向的可扩展性能够保证性能即便是这样的大的数据,IO也可以达到1.5兆。

有了数据很好,有了数据可以有很多工作可以做,更重要的是怎么从大量数据中挖掘出来信息。传统的方法都是做结构化的数据,数据量比较小,是TB量级的那时候是纵向扩展,接下来大数据时代,一方面数据既有结构化的,也有非结构化的。所以我们将来的分析平台一定是能兼容结构化和非结构化。同时在分析能量上也要分析到PB量的数据。再有一个分析的形态一定是可扩展的,因为数据量不管是大它还是与时俱进的。怎么样让数据动态适应数据的增长,一定要让系统里有一个可扩展的空间和能力。

举一个例子,EBC分析平台,它有两个核心引擎,一个是Greenplum,它是一个大规模的并行数据库,它有几个很重要的特点,一个是容量大,可以处理PB级数据,另外一个就是可扩展性,我们叫做无共享体系架构。这个体系架构可以部署在一个很多节点构成的数据量,如果我们处理数据两需要扩大,性能需要提高,可以通过增加节点完成工作。数据加载速度可以达到10/秒,因为它是把所有的查询分布到不同的节点进行。这个系统所有的负载均衡都是由系统自动完成的。

还有一点GPDB是支持地理空间数据的数据库。它通过支持PostGIS可以支持空间计算。刚才我们强调了大数据一定要有大数据的分析头脑,GPDB有内置的分析强大功能,通过SQL的一些调用,可以调到很多分析的函数,包括像SVM这些都是在系统里有支持的。

再有一点就是支持全文搜索。这种全文搜索集成了Soir,它可以实现自由文本的全文检索。同时并行的体系架构,在全文搜索中是完全被简化的,搜索的效率非常高。刚才讲的这些都是结构化的数据里面用什么样的方式进行分析。对于非结构化的数据,大数据处理现在最好的方式就是Greenplum HD。它在标准的基础上做了很多改进,特别是性能和可靠性上的改进。比如说增加了数字节点内容,可以增加反应速度和避免一些单节点的问题造成系统的问题。同时增加了一些竞像的配套反应,这些都是根据系统可靠性采用的一些方式。

总的来说Greenplum这个平台是一个大数据完整的分析解决方案,涵盖了所有的数据,不管是结构化数据还是非结构化数据,加上分布式结构体系架构,可以在分析大数据过程中实现高容量高效率。

当前地理信息行业在经历一个很大的转变,这个转变其中有一个方面就是我们要面对的数据是大数据,这对我们所有人来说是一个机会。在以数据为中心的时代,数据非常重要,拥有分析数据、驾驭数据的能力更重要。

关键字:大数据

本文摘自:IT专家网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^