当前位置:大数据业界动态 → 正文

大数据处理现状及10个问题分析

责任编辑:editor006 |来源:企业网D1Net  2014-09-22 17:02:48 本文摘自:中国大数据

去年我们可能还在讨论大数据这个概念,今年我想很多企业和厂商已经开始行动了。大数据能掘到多少金子,我觉得这都是后话,目前紧要关头是迎接大数据的到来,如果你接不住大数据那么你在未来的企业市场将会被淘汰。这不是危言耸听,我们看到现在生成数据的设备在增加,个人数字设备、企业计算系统产生的数据量远远超过10年前,是1996年的180倍。文件(非结构化数据)本身的大小在发生变化,从600MB的RMVB到了30GB的蓝光1080P视频,企业数据量增加,造成的数据库庞大。这三点无疑都是迫使企业进入大数据时代的原因。

我们知道大数据的4v理论,数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity),为我们制定大数据的策略提供了很好的方向。但同时我们在处理大数据的时候还是面临着很多问题,就目前大数据处理的现状来看,基本上处于以下几种状态。

大数据处理现状

1、大数据处理平台以Hadoop为主

目前大数据的处理平台以Hadoop为主,都是自建Hadoop集群或使用AmazonElasticMapReduce服务,而Google的BigQuery由于种种限制推广得并不理想。微软的Cosmos/Dryad/Scope由于体系仅限于内部使用,也不能成为大数据的平台,同时微软对外也支持hostingHadoop。

2、大数据处理技术复杂

大数据的处理技术纷繁复杂,仍然处于产业变革早期的战国时代。由于传统的OLAP和数仓的延续性,HiveSQL有很大市场,但Hive的数据正确性和Bug仍然比较多。而HadoopMapReduce又过于复杂灵活,写出高效Job比较困难。Pig、FlumeJava等分布式编程模型技术的门槛较高,所以推广起来也比较困难。在数据挖掘和图算法领域虽然涌现出了Mahout、Hama、GoldenOrb等大量开源平台,但都不够成熟。至于基于Hadoop的工作流系统Oozie和数据传输系统Sqoop都需要开发人员单独部署。都是各有利弊,还没有一个很好的完美的解决方案。

3、Hadoop尚难成为公共云服务

为什么说Hadoop很难成为公共云服务呢,原因有以下几个方面,第一Hadoop的安全体系局限在企业内网,缺乏多租户的支持。第二直接暴露HDFS文件系统,MapReduce和Hive很难做到多用户数据安全。第三数据文件格式过于复杂多样,维护成本高,保持数据兼容比较困难。

综上三点目前大数据的现状,我们可以看出,大数据处理系统的技术门槛很高,从自备发电机到公共电网还有很长的路要走。而市场则需要安全性、可用性、数据正确性都有保障,并且功能完整的一体化大数据处理服务。

大数据处理面临的问题

就目前大数据的现状来看,可以看出大数据目前面临着以下几个问题。

1、多租户

如何保证用户间隔离、数据安全和防止有害代码的威胁?

2、高可用

如何确保服务7*24小时高可用和数据永久不丢失?

3、大规模

如何支撑10000个中型网站的数据规模?

4、编程模型

如何在纷繁的编程模型中选择并保持高度的扩展性,并支持工作流程?

5、存储摸型

如何在存储不断发展中报纸数据格式的兼容性和互操作性?

6、数据正确性

如何确保大数据处理的正确性和一致性,尤其对于金融和科学计算应用?

7、资源调度与效率

如何高效调度和使用计算?

8、可运维可管理

如何确保系统可运维和管理,做到远程维修?

9、数据通道

如何处理大数据的传输以及与在线和实时分析系统的整合?

10、运营平台

如何为数据和应用的提供者和使用者提供一个交易平台和生态环境?

关键字:OozieSqoopHDFS大数据

本文摘自:中国大数据

x 大数据处理现状及10个问题分析 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据处理现状及10个问题分析

责任编辑:editor006 |来源:企业网D1Net  2014-09-22 17:02:48 本文摘自:中国大数据

去年我们可能还在讨论大数据这个概念,今年我想很多企业和厂商已经开始行动了。大数据能掘到多少金子,我觉得这都是后话,目前紧要关头是迎接大数据的到来,如果你接不住大数据那么你在未来的企业市场将会被淘汰。这不是危言耸听,我们看到现在生成数据的设备在增加,个人数字设备、企业计算系统产生的数据量远远超过10年前,是1996年的180倍。文件(非结构化数据)本身的大小在发生变化,从600MB的RMVB到了30GB的蓝光1080P视频,企业数据量增加,造成的数据库庞大。这三点无疑都是迫使企业进入大数据时代的原因。

我们知道大数据的4v理论,数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity),为我们制定大数据的策略提供了很好的方向。但同时我们在处理大数据的时候还是面临着很多问题,就目前大数据处理的现状来看,基本上处于以下几种状态。

大数据处理现状

1、大数据处理平台以Hadoop为主

目前大数据的处理平台以Hadoop为主,都是自建Hadoop集群或使用AmazonElasticMapReduce服务,而Google的BigQuery由于种种限制推广得并不理想。微软的Cosmos/Dryad/Scope由于体系仅限于内部使用,也不能成为大数据的平台,同时微软对外也支持hostingHadoop。

2、大数据处理技术复杂

大数据的处理技术纷繁复杂,仍然处于产业变革早期的战国时代。由于传统的OLAP和数仓的延续性,HiveSQL有很大市场,但Hive的数据正确性和Bug仍然比较多。而HadoopMapReduce又过于复杂灵活,写出高效Job比较困难。Pig、FlumeJava等分布式编程模型技术的门槛较高,所以推广起来也比较困难。在数据挖掘和图算法领域虽然涌现出了Mahout、Hama、GoldenOrb等大量开源平台,但都不够成熟。至于基于Hadoop的工作流系统Oozie和数据传输系统Sqoop都需要开发人员单独部署。都是各有利弊,还没有一个很好的完美的解决方案。

3、Hadoop尚难成为公共云服务

为什么说Hadoop很难成为公共云服务呢,原因有以下几个方面,第一Hadoop的安全体系局限在企业内网,缺乏多租户的支持。第二直接暴露HDFS文件系统,MapReduce和Hive很难做到多用户数据安全。第三数据文件格式过于复杂多样,维护成本高,保持数据兼容比较困难。

综上三点目前大数据的现状,我们可以看出,大数据处理系统的技术门槛很高,从自备发电机到公共电网还有很长的路要走。而市场则需要安全性、可用性、数据正确性都有保障,并且功能完整的一体化大数据处理服务。

大数据处理面临的问题

就目前大数据的现状来看,可以看出大数据目前面临着以下几个问题。

1、多租户

如何保证用户间隔离、数据安全和防止有害代码的威胁?

2、高可用

如何确保服务7*24小时高可用和数据永久不丢失?

3、大规模

如何支撑10000个中型网站的数据规模?

4、编程模型

如何在纷繁的编程模型中选择并保持高度的扩展性,并支持工作流程?

5、存储摸型

如何在存储不断发展中报纸数据格式的兼容性和互操作性?

6、数据正确性

如何确保大数据处理的正确性和一致性,尤其对于金融和科学计算应用?

7、资源调度与效率

如何高效调度和使用计算?

8、可运维可管理

如何确保系统可运维和管理,做到远程维修?

9、数据通道

如何处理大数据的传输以及与在线和实时分析系统的整合?

10、运营平台

如何为数据和应用的提供者和使用者提供一个交易平台和生态环境?

关键字:OozieSqoopHDFS大数据

本文摘自:中国大数据

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^