大数据混战：谁将撼动Spark盟主之位

责任编辑：editor006 |来源：企业网D1Net 2016-08-10 16:27:27 本文摘自：it168网站

目前由于Apache Spark的不断发展，其已逐步成为大数据云时代的重要组成部分。但Spark远非那么完美，当然，它确实在逐步改善中，但正如2.0版所示，如果竞争者提供了一个比Spark更赞的处理方式，必然会吸引开发者的注意。

大数据混战：Spark面临的四大挑战

如下列出的四项很可能会撼动Spark的地位，Spark以对传统内存批处理和流处理的全新方法而闻名。并且，目前该方法也持续奏效。那接下来这四位又有哪些优势呢?

Apache Apex

Apache Apex最初由DataTorrent开发出来，目前已作为孵化器项目被捐赠给Apache基金会。它可以在YARN下的Hadoop上执行流处理和批处理。

大数据混战：Spark面临的四大挑战

优点：Apex是真正的流处理，而Spark的流处理实际上只是一个微小的批处理而已。

缺点：虽然Apex经由Hadoop使其本身具备容错能力，但这意味着Apex和Hadoop是紧密耦合的。而Spark有没有Hadoop都可以。并且，Apex至今没有具备Spark的机器学习能力。

Heron

Twitter采用流处理系统Heron替代了Apache Storm，Heron现在作为一个开源项目，可以认为其是Spark的竞争者之一。

大数据混战：Spark面临的四大挑战

优点：Heron通过容器管理调度程序进行流处理。因此，它比其他解决方案更易集成，更易调试，部署和集群运行。为了吸引Storm用户，它同时兼容Storm API和共享Storm的很多概念。

Apache Flink

Apache Flink是一款大数据流处理引擎，这个目标看起来和Spark类似。

大数据混战：Spark面临的四大挑战

优点：和Apex一样，Flink是一款真正的流处理模型，而不像Spark那样只是微小的批处理。Flink对数据流中迭代或者重复的进程有明确规定，并且它有一些与Spark类似的特点，例如机器学习和图形处理。但是，Flink目前来说仍然是比较新的项目，今年稍早些时候刚推出1.0版本。

Onyx

Onyx是一个无中心，支持云的，容错的高性能分布式计算系统。根据其官方介绍，Onyx同时具备批处理和流处理能力。

优点：它由基础语言Clojure而不是Scala编写而成，Onyx把流处理放在第一位，批处理操作基本上是基于小的流处理操作实现的。Onyx允许开发人员使用Clojure或Java语言，例如Clojure的向量和地图等，进一步定义如何处理数据。一旦Onyx流行起来，很可能是由于Java的受欢迎程度而不是Clojure的原因。

原文链接：http://www.infoworld.com/article/3101729/big-data/big-data-brawlers-4-challengers-to-spark.html

关键字：Spark 数据流