Apache软件基金会周三公布了其最新版本的开源数据处理程序Hadoop 2,它可以同时运行多个应用程序,使用户能够快速、高效地以多种方式利用数据,速度比拟超级计算机。
Apache Hadoop是一个框架,允许在集群计算机使用简单的编程模型分布式处理大型数据集,使得企业更有效率和成本效益地存储,处理,管理和分析不断膨胀的数据。
部署Hadoop 的企业组织遍布世界各地,包括AOL,苹果,易趣,Facebook,Netflix,Amazon Web Services,以及惠普等。
平台的最新版本,历时四年多打造,包括许多新的组件。最值得一提的是YARN,它将集成Hadoop的MapReduce。新版本主要功能拆分成两个独立的守护进程,资源管理在其中一个,其他的作业调度和监控在另一个。
YARN在HDFS(Hadoop分布式文件系统)之上,作为一个服务于大数据应用的大规模、分布式操作系统,允许多个应用程序在其整个生命周期同时运行,以更加高效地支持数据。Hadoop 2和YARN使用户能够混合批量、交互和实时的工作负载在一个稳定的Hadoop生态系统的基础部分。
Apache软件基金会还表示YARN是MapReduce的第2版。基金会称,它保留API与以前的版本兼容,为MapReduce编写的应用程序将能够运行在YARN上,无须重新编译。
10多个Apache项目被集成到 Hadoop,Apache软件基金会表示,还将有10来个。
通用版本(GA)的Hadoop 2与6月发布的预览版本一致,其中也包括了YARN。Apache Hadoop 2将会根据Apache许可证2.0版推出。