微软即将开发一个新的大数据技术,运行于Hadoop新一代资源管理器YARN的上层的开源大数据框架REEF。
对于用户来说,通过技术在数据传输等方面提供持续的应用支持,特别是被随时保证用户可以抓取到所需的数据信息。
数字化构建架构(来源gigaom.com)
笔者了解,微软开发的这个名为REEF(Retainable Evaluator Execution Framework)的大数据框架,计划在一个月内将其开源。REEF就运行在YARN的上层,YARN作为新一代Hadoop资源管理器,尤其适合建立不同类型的应用程序。
微软介绍REEF框架和微软的开源计划,YARN作为Apache Hadoop项目的一部分,是一个资源管理器,让用户可以运行和管理同一个物理集群机上的多种应用程序,例如MapReduce批处理和图形处理程序。这种设计开发不仅可以整合一个公司管理的系统数量,而且可以对相同的数据进行不同类型的数据分析。在某些情况下,整个数据流可以执行在同一个集群机上。
另外,对于某些类型的作业,例如机器学习,YARN并不是一个理想的框架,因为它们对于数据移动、任务监控以及前续结果集迭代(以避免多次重启)等功能存在特殊要求。针对REEF而言,是一套运行在YARN之上的库能在一定程度上解决上述问题。
YARN作为新一代Hadoop资源管理器(来源gigaom.com)
REEF被分为两大主要部分:Evaluator作为容纳REEF服务的YARN容器,以及使用户代码运行在Evaluator当中的Activity。值得一提的是,同一Evaluator可以再次启动并维持其初始状态,这样其它Activity进程也可以针对初始数据实现运行。据推测,微软很可能是利用某种SQL查询或者其它机器学习算法来实现这样的效果。
从理论上讲,REEF技术更多是解决企业在尝试对数据进行进一步分析时所面对的遗留问题。微软正式发布REEF之后,已经对Hadoop(YARN即为Hadoop的重要组成部分)及开源社区表现出高度关注。就在几年前,微软还在寻找Hadoop的替代方案及专有平台。如今,已经开始推动Hadoop社区的工作并提高自身代码更加开放。