构建Hadoop集群驾驭大数据

责任编辑：vivian |来源：企业网D1Net 2012-08-08 11:00:05 原创文章企业网D1Net

大数据正和云计算一起，推动着整个IT产业的发展。所谓大数据，IDC对其的定义为：“为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值而设计的新一代的架构和技术。”大数据具有高容量、高价值、多样化和持续性的特点，尤其是非结构化的特性，使得大数据的保存、管理、挖掘等成为了当前企业面临的挑战。而正因为如此，大数据催生了一个迅猛发展的市场。有关数据显示， 2010年全球大数据以及相关硬件、软件和服务市场仅为30亿美元，而到2015年该市场的规模将超过170亿美元，平均年增长速度超过50%。

而智能手机、视频、社交网络、微博等媒介源源不断地产生的海量的非结构性数据，才是企业对大数据的最真实的感受。根据IDC的报告，未来十年全球大数据将增加50倍。仅在2011年，全球就产生了1.8ZB(也即1.8万亿GB)的大数据。毫无疑问，大数据将挑战企业的存储架构及数据中心基础设施等，也会引发云计算、数据仓库、数据挖掘、商业智能等应用的连锁反应。

大数据造就Hadoop

大数据也给企业带来了新的机遇。例如，通过评估某位客户在网站上的行为，企业可以更好地了解他们需要什么支持或寻找什么产品，或者弄清当前天气和其他条件对于送货路线和时间安排的影响。此外，大数据分析更加注重实时性，特别是涉及到与网上交易或者金融类相关的应用。比如，网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析，并准确地进行广告投放。因而，未来将会有更多的TB级数据集用于商务智能和商务分析，这对计算和存储甚至是分析平台带来了新的市场机会。

大数据的迅猛增加，使得传统的数据分析软件面对当今的海量数据显得力不从心。新的海量数据分析引擎已经出现，如Apache的Hadoop、LexisNexis的HPCC系统和1010data的以云计算为基础的分析服务。特别是开源的Hadoop，它已经在过去5年之中证明了自己是市场中最成功的数据处理平台。Hadoop将海量数据分解成较小的更易访问的批量数据，并分发到多台服务器来分析和处理，这种方式就像把一大块食物分解成小块更容易让人消化一样。

存储和服务器融合支持开源Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架，它可在单一的Linux平台上使用，但是运行在由机架服务器组成的集群才能更大地发挥它的力量。

由于大数据更加强调实时处理，Hadoop集群中的节点服务器除了对计算性能有更高的要求外，对存储也是追求大容量，以便节点机直接对存储在服务器内部的数据进行访问和分析。而伴随着英特尔等相关厂商的推动，服务器和存储融合的趋势愈发明显，这也使得存储服务器成为了Hadoop集群首选的计算平台。

我们不妨来看看英特尔是如何推动存储和服务器的融合的。

首先，x86架构为两者的融合提供基础。随着英特尔在处理器芯片的不懈开发，x86架构不仅仅在服务器上获得巨大的成功，很多存储架构也日趋采用英特尔处理器;其次，固态硬盘让服务器存储融合更为智能。随着英特尔等固态硬盘厂商的大力推动下，固态硬盘的出现，使得服务器存储在计算方面更趋智能;第三，海量存储让服务器更为充实，TB级大容量SATA盘的出现，使得服务器的容量得到极大的提升。

此外，作为SAS技术的推动者之一，英特尔在其Romley平台上集成SAS交换功能，这实际上也是服务器与存储走向融合的一种体现，这种做法能够让系统厂商充分利用系统主板空间和PCI-E端口资源，降低系统开发复杂性和成本，并让用户在系统使用和系统维护工作上更加简单和容易。

“Hadoop+至强”意味着什么?

以上种种，让人们看到了服务器和存储融合的趋势日渐明显，也使得企业在构建Hadoop集群时将高存储容量的x86机架服务器当作了不二之选。中国联通和百度就是这样来应对大数据挑战的。

首先说说联通。伴随着智能手机的普及，广大用户利用手机上网和社交越来越频繁，这也带来了一个新的挑战：用户想清清楚楚了解自己的上网流量究竟用在了哪里?在这种状况下，联通从去年开始部署针对移动互联网用户的上网记录查询系统。

而实际上，用户即使是简单地访问一个新浪的首页，上网记录查询系统也会产生20多条记录，这样每天产生的数据简直是天量。此前联通曾经试图用甲骨文数据库来解决该问题，但经过测试后发现关系型数据库处理到百亿条数据时就显得无能为力了，一次简单的查询可能几个小时都出不来结果。

为此，联通尝试采用英特尔至强平台的服务器集群和英特尔Hadoop发行版组合的方式来解决该问题，并收到了良好的效果。目前，联通Hadoop系统集中部署在北京，各省的数据每5分钟生成一个文件往北京传输并被保存和有效管理。采用Hadoop技术后，用户输入中国联通任何一个城市的号码，其上网记录只需一两秒就可以检索出来。

中国联通研究院副院长黄文良介绍，联通Hadoop集群系统的“主力军”是178台基于英特尔至强5600处理器的两路刀片服务器，每台服务器配备了高达14TB存储容量。此外，系统还配有NameNode节点服务器、入库服务节点服务器、集群监控节点等若干台，也都是基于英特尔架构处理器平台的x86服务器。从联通Hadoop解决方案来看，融合存储服务器成为了大数据处理的“中流砥柱”。

再来看看百度。百度是国内较早开始探索Hadoop大数据解决之道的互联网企业。百度从2007年开始使用Hadoop做离线处理业务，目前有80%的Hadoop集群用作日志处理。同其它互联网企业面临的相同麻烦是，Hadoop在百度经过5到6年发展之后，也已经走到了一个岔路口。现在百度每天的作业数超过了千万，每天的数据处理量在6TB左右。

2011年，百度Hadoop集群的服务器规模达到了1万多台，2012年计划达到2万台。目前百度的服务器大部分是价格在2到3万元的基于英特尔架构的定制化服务器，标配12个1TB硬盘，32GB内存。百度高级架构师马如悦介绍，百度的Hadoop集群规模的目标是10万节点，而且需要充分考虑跨机房部署的问题。为此，百度正在对Hadoop的扩展上限进行研发，看一旦到了上限是否需要拆分。百度还计划将Hadoop升级到2.0版本，主要是解决Hadoop主节点的可扩展性问题。

以上两则例子充分说明，开源的Hadoop已经成为应对大数据挑战的有效利器，而Hadoop集群的基础则是大存储容量的英特尔架构服务器，它们的高性能和大容量，以及直接在机器内部快速传输数据的特性，成为了大数据的应对之道。

关键字：数据服务器存储融合