使用Hadoop还是Spark到底怎么决断?

责任编辑：editor005 作者：李祥敬 |来源：企业网D1Net 2016-03-08 14:17:16 本文摘自：天极网信息化频道

谈到大数据，相信大家对Hadoop和Apache Spark这两个名字并不陌生。或许我们可以这样说，Hadoop是大数据的启蒙，借助Hadoop让企业步入了大数据时代。而最近几年，Spark的风头似乎超越了Hadoop。而且网上有一种声音就是Spark将会取代Hadoop成为大数据的统治者，事实上是这样么？且听笔者娓娓道来。

使用Hadoop还是Spark到底怎么决断？

其实，Hadoop与Spark不存在冲突，因为Spark是运行于Hadoop顶层的内存处理方案，也就是说目前部署Spark的企业，其实都在现有的Hadoop集群中运行Spark。主流的Hadoop发行版本提供商比如Cloudera和Hortonworks将Spark列为他们Hadoop发行的一部分。

我们可以说Hadoop和Spark均是大数据框架，都提供了执行常见大数据任务的工具。虽然Spark在某些应用场景下比Hadoop，但是Spark本身没有一个分布式存储系统，而是依赖于Hadoop的HDFS。Spark的高级分析应用也是依赖于HDFS存储数据。

与Hadoop相比，Spark真正的优势在于速度。因为Spark的大部分操作都是在内存中，而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上。内存比硬盘的读取速度快上了N倍，所以Spark在某些计算类型上比Hadoop快上数倍。

Hadoop和Spark不存在竞争关系

笔者在前面的论述中，不断强调是某些计算类型和应用场景，Spark比Hadoop快。其实Hadoop和Spark是针对不同的应用场景。Hadoop将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储。同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。

而Spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。Spark只是专注于计算，而不承担数据存储功能，它需要第三方存储的支持。

Hadoop包括两个最重要的组件。第一个是大规模储存系统，叫做Hadoop Distributed File System(HDFS)。第二个是一个计算引擎，叫做MapReduce，它能在储存在HDFS上的数据顶层运行大规模并行程序。

所以我们看到Hadoop包含了存储和计算两个组件，而这个MapReduce计算组件其实可以被Spark替换的。Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。

所以看明白了吧，Spark相当于是对Hadoop计算组件的改进。实际上它是对Hadoop的补充，可以在Hadoop文件系统中并行运行。因为Spark充分利用内存进行缓存，所以比较合适做迭代式的运算。

当然，Spark也不是非要依附在Hadoop身上才能生存。它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS，也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的，毕竟，大家都认为它们的结合是最好的。

使用Hadoop还是Spark到底怎么决断？

Spark对于Hadoop来说不是挑战，也不是来取代Hadoop的。相反，Hadoop是Spark成长发展的基础。Hadoop和Spark都是Apache基金会下的开源项目，所以不存在商业竞争。而基于Hadoop和Spark提供大数据支持的商业公司往往同时提供两种服务。例如，Cloudera就既提供Spark服务也提供Hadoop服务。

目前基于Hadoop和Spark的大数据生态日趋完善，人们对于Hadoop和Spark的认识也更加完整。Hadoop确立了大数据的处理框架，而Spark则是对Hadoop框架的改进，毕竟大数据是不断发展的，而计算模型也需要与时俱进，计算模型的不断更新才能适应企业数据发展的新特点。Spark引入了内存计算、机器学习等重要计算框架，丰富了企业大数据的选择。

结语

Hadoop和Spark都是Apache基金会下的开源项目，两者共同为企业提供了大数据的处理框架，他们之间不存在你死我活的问题，对于企业来说也不存在孰优孰略，只有适合企业自身需求之说。所以企业不需要纠结是采用Hadoop还是Spark，而应该根据企业自身的应用需求来决定。

随着企业在大数据方面的发展，新的问题也会出现，这样也需要新的大数据计算框架的出现，所以可以预见的是未来新的计算矿建也会出现，而不是局限于Hadoop和Spark。

关键字：Hadoop Spark 并行程序