当前位置:大数据业界动态 → 正文

大数据混战:谁将撼动Spark盟主之位

责任编辑:editor006 |来源:企业网D1Net  2016-08-10 16:27:27 本文摘自:it168网站

目前由于Apache Spark的不断发展,其已逐步成为大数据云时代的重要组成部分。但Spark远非那么完美,当然,它确实在逐步改善中,但正如2.0版所示,如果竞争者提供了一个比Spark更赞的处理方式,必然会吸引开发者的注意。

大数据混战:Spark面临的四大挑战

如下列出的四项很可能会撼动Spark的地位,Spark以对传统内存批处理和流处理的全新方法而闻名。并且,目前该方法也持续奏效。那接下来这四位又有哪些优势呢?

Apache Apex

Apache Apex最初由DataTorrent开发出来,目前已作为孵化器项目被捐赠给Apache基金会。它可以在YARN下的Hadoop上执行流处理和批处理。

大数据混战:Spark面临的四大挑战

优点:Apex是真正的流处理,而Spark的流处理实际上只是一个微小的批处理而已。

缺点:虽然Apex经由Hadoop使其本身具备容错能力,但这意味着Apex和Hadoop是紧密耦合的。而Spark有没有Hadoop都可以。并且,Apex至今没有具备Spark的机器学习能力。

Heron

Twitter采用流处理系统Heron替代了Apache Storm,Heron现在作为一个开源项目,可以认为其是Spark的竞争者之一。

大数据混战:Spark面临的四大挑战

优点:Heron通过容器管理调度程序进行流处理。因此,它比其他解决方案更易集成,更易调试,部署和集群运行。为了吸引Storm用户,它同时兼容Storm API和共享Storm的很多概念。

Apache Flink

Apache Flink是一款大数据流处理引擎,这个目标看起来和Spark类似。

大数据混战:Spark面临的四大挑战

优点:和Apex一样,Flink是一款真正的流处理模型,而不像Spark那样只是微小的批处理。Flink对数据流中迭代或者重复的进程有明确规定,并且它有一些与Spark类似的特点,例如机器学习和图形处理。但是,Flink目前来说仍然是比较新的项目,今年稍早些时候刚推出1.0版本。

Onyx

Onyx是一个无中心,支持云的,容错的高性能分布式计算系统。根据其官方介绍,Onyx同时具备批处理和流处理能力。

优点:它由基础语言Clojure而不是Scala编写而成,Onyx把流处理放在第一位,批处理操作基本上是基于小的流处理操作实现的。Onyx允许开发人员使用Clojure或Java语言,例如Clojure的向量和地图等,进一步定义如何处理数据。一旦Onyx流行起来,很可能是由于Java的受欢迎程度而不是Clojure的原因。

原文链接:http://www.infoworld.com/article/3101729/big-data/big-data-brawlers-4-challengers-to-spark.html

关键字:Spark数据流

本文摘自:it168网站

x 大数据混战:谁将撼动Spark盟主之位 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据混战:谁将撼动Spark盟主之位

责任编辑:editor006 |来源:企业网D1Net  2016-08-10 16:27:27 本文摘自:it168网站

目前由于Apache Spark的不断发展,其已逐步成为大数据云时代的重要组成部分。但Spark远非那么完美,当然,它确实在逐步改善中,但正如2.0版所示,如果竞争者提供了一个比Spark更赞的处理方式,必然会吸引开发者的注意。

大数据混战:Spark面临的四大挑战

如下列出的四项很可能会撼动Spark的地位,Spark以对传统内存批处理和流处理的全新方法而闻名。并且,目前该方法也持续奏效。那接下来这四位又有哪些优势呢?

Apache Apex

Apache Apex最初由DataTorrent开发出来,目前已作为孵化器项目被捐赠给Apache基金会。它可以在YARN下的Hadoop上执行流处理和批处理。

大数据混战:Spark面临的四大挑战

优点:Apex是真正的流处理,而Spark的流处理实际上只是一个微小的批处理而已。

缺点:虽然Apex经由Hadoop使其本身具备容错能力,但这意味着Apex和Hadoop是紧密耦合的。而Spark有没有Hadoop都可以。并且,Apex至今没有具备Spark的机器学习能力。

Heron

Twitter采用流处理系统Heron替代了Apache Storm,Heron现在作为一个开源项目,可以认为其是Spark的竞争者之一。

大数据混战:Spark面临的四大挑战

优点:Heron通过容器管理调度程序进行流处理。因此,它比其他解决方案更易集成,更易调试,部署和集群运行。为了吸引Storm用户,它同时兼容Storm API和共享Storm的很多概念。

Apache Flink

Apache Flink是一款大数据流处理引擎,这个目标看起来和Spark类似。

大数据混战:Spark面临的四大挑战

优点:和Apex一样,Flink是一款真正的流处理模型,而不像Spark那样只是微小的批处理。Flink对数据流中迭代或者重复的进程有明确规定,并且它有一些与Spark类似的特点,例如机器学习和图形处理。但是,Flink目前来说仍然是比较新的项目,今年稍早些时候刚推出1.0版本。

Onyx

Onyx是一个无中心,支持云的,容错的高性能分布式计算系统。根据其官方介绍,Onyx同时具备批处理和流处理能力。

优点:它由基础语言Clojure而不是Scala编写而成,Onyx把流处理放在第一位,批处理操作基本上是基于小的流处理操作实现的。Onyx允许开发人员使用Clojure或Java语言,例如Clojure的向量和地图等,进一步定义如何处理数据。一旦Onyx流行起来,很可能是由于Java的受欢迎程度而不是Clojure的原因。

原文链接:http://www.infoworld.com/article/3101729/big-data/big-data-brawlers-4-challengers-to-spark.html

关键字:Spark数据流

本文摘自:it168网站

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^