英特尔专家谏言五大策略建设大数据平台

责任编辑：王文龙 |来源：企业网D1Net 2013-05-22 10:03:04 本文摘自：IT专家网

在日前举办英特尔大数据技术及行业应用论坛上，英特尔数据中心软件部售前顾问黎超给出了假设大数据平台的五个建议，包括工业标准硬件、开源软件与商业软件相结合、横向扩展架构、弹性系统，以及能和现有平台集成。

黎超强调，Hadoop不能解决所有的大数据问题，需要和企业其他的组件进行紧密集成，形成一个完整有效的大数据处理方案。

根据IDC的数字宇宙的研究，全球不同设备产生的数据，预计2020年将会突破40ZB，而中国的整个数据量届时将超过8ZB，增长率将是2012年的23倍。从这些数据中汲取业务价值，是每一个企业组织的热切渴望。

黎超就是针对传统数据平台应对当前的大数据应用需求所面临的巨大挑战给出上述建议的。众所周知，当数据量爆炸增长，传统的数据处理方式通常会力不从心，这也是大数据技术成为热门的一个重要原因。

英特尔数据中心软件部售前顾问黎超

大数据的共性需求与挑战

大数据在金融、电信、医疗和智慧城市等多个领域都能发挥巨大的作用，黎超分析了当前大数据建设过程中的五个共性需求，以及传统平台在处理这些需求面临的挑战。

五个共性需求包括：

需要更广泛的数据视角

除了企业内部自身产生的业务数据，还需要从企业外部广泛的数据源进行数据的收取，比如从社交网络收取数据。

更长期的持有原始格式的数据

以便我们进行数据模型的打破和重组。最终实现不断变化的分析需求，最小化数据失真，实现数据全方位的洞察。

数据本身是有时效性的，面对海量数据的时候希望用

最快的速度实现数据的价值

数据平台有非常良好的可用性来满足非常高的业务连续性的需求，必须随时可以提供服务。

良好的系统弹性

在数据增长的时候，可以根据数据规模随时进行资源的再分配和重组，即云计算的技术手段。

面对这些需求，当数据爆发性的增长，传统数据平台面临诸多挑战，包括如下几点：

持有数据的成本

传统方式用大量的高端磁盘阵列，用很好的服务器支撑数据应用，产生的价值可能比投入的资源还要高，得不偿失。

传统数据平台的性能

数据从网格时代的TB级涨到云计算时代的PB级规模的时候，但对响应时间要求却没有变化，所以新平台必须很好地支持数据分析的实时性的要求。

传统平台的可用性、业务连续性保障

传统BI的数据库平台，通常采用冗余的方式(如备份)来保证数据不丢失。但是当系统硬件真正出现故障的时候，依然会造成业务上的停顿。

平台的弹性

需要根据业务发展需求动态地调整资源使用，避免重要应用和次要应用产生资源冲突。

建设大数据平台的五个建议

针对这些需求和挑战，黎超认为，企业建设大数据平台可以采用以下的五个策略：

第一，硬件上尽量使用符合工业标准的开放平台

来降低大数据物理平台的投入成本。

第二，软件平台上尽量采用开源平台和商业化相结合的软件。开源的好处是灵活多变，可以支持更多需求，可以随时根据企业的需求变化进行相应的改造。但是它的缺点是没有商业化的支撑，当出了问题的时候不知道找谁进行相应的服务。所以把二者结合在一起，如同Linux一样，才能真正做到大数据平台无论是初期建设成本还是后期维护成本都是可控的。

第三，这个平台应该通过硬件的增加来实现系统的性能和存储的线性扩展。如果拿牛拉车比喻这个系统，一个车套用牛的数量是有限的，只有不断地增加车的数量才可以同时拉更多的货物。所以，要把传统的纵向扩展的思维变成了横向扩展的思维。此外还不应该依赖于硬件框架来保证系统的高可用性，软件架构上就应该保证整个系统的可用性。

第四，整个系统具有良好的伸缩性，可以根据业务变化进行资源动态调配。

第五，应该保护原有的投资，能跟以前的数据平台进行紧密的集成，为用户形成完整有效的大数据解决方案。

黎超提醒说，就好像没有一种万能灵药能解决所有的病症，数据平台也应该根据实际应用场景进行取舍。最有效的方案是把新的数据平台和原有的数据平台进行相应的集成。

如何使用Hadoop平台

当前Hadoop已经成为大数据的一种标准平台，从2007年开始，越来越多的厂家，包括英特尔、IBM、ORACLE都支持Hadoop，还有很多互联网企业选择了Hadoop支持其核心业务，如淘宝、FaceBook、雅虎都有数千节点的集群。

黎超认为，Hadoop对于互联网行业，具有成本可控、方便数据的打破和重组和不依赖与硬件的高可用性等三大优势。但他指出，由于研发成本和需求差异的原因，传统行业不能像互联网企业那样直接使用开源软件，就像很少有电信企业、金融企业用开源的Linux。

英特尔把Hadoop看作大数据平台中的Linux，在Hadoop的研发上投入了大量的力量。黎超介绍，英特尔Hadoop发行版和开源版本的重要区别在于产品化的支持，以及软件易用性、可用性、稳定性、可管理性上的诸多改进。英特尔针对x86架构做了优化，很多的应用场景的性能和开源版相比有最大10倍的提高。这是没有底层的能力和理解的纯粹软件公司难以做到的。其他的改造，如支持Hbase的传感器采集，高清图片的高并发入库等。

并没有哪一种平台能解决所有的问题，黎超指出，Hadoop不能解决大数据里面所有的问题。英特尔的观点是把Hadoop和企业其他的组件进行相应的紧密集成，形成一个完整有效的大数据处理方案。据悉，英特尔Hadoop发行版提供了一些工具和接口，能够使现在的Hadoop和其他数据库之间更容易用。

黎超进一步解释说，一些低价值密度的数据，比如说互联网上的网页，微博、微信上收集到的数据，可以放在Hadoop里，如果长期存储在关系型数据库里成本会很高。另外还有很多不同标准数据来源的数据，在进入关系型数据库之前可以把它沉积在Hadoop里进行相应的数据预处理，更长期的保有数据原始格式，以满足将来对数据的处理需求。

英特尔建议的架构

是，在整个企业内部应用Hadoop架设一个大的数据资源池，收集各个来源的原始数据进行长期的存放。再在Hadoop上进行数据的清洗和相应的数据处理，并进行数据的不断重组，然后可以把更有价值的数据推到原有的关系型数据库上。当然，也可以根据需要直接在Hadoop上进行复杂的分析结果的展现。

其他专家的精彩观点摘要：

IDC周震刚：实施大数据“三要三不要”

IDC企业系统与软件研究组高级研究经理周震刚总结了实施大数据解决方案的六个要点。(详见《越过大数据陷阱 IDC专家谈“三要三不要”》)他特别提到，千万不要低估大数据的数据中心网络和设计的影响，不能给大数据解决方案留下瓶颈。

英特尔苗凯翔：讨论大数据一定是端到端的

英特尔数据中心软件部中国区首席技术官苗凯翔表示，大数据战略一定是端到端的理念。这是因为很多的数据都是从终端、网络、从商务领域转移过来，这些数据很大部分可能是前端用户过来或者物联网设备上过来的，所以应用场景的数据处理，实时性要求和网络带宽都要考虑到才能解决。

英特尔在大数据方面的定位，就是为企业大数据应用提供端到端的支撑，甚至正在研究端到端的Hadoop。

当然，英特尔的重心还在计算平台的优化，包括内存处理提高性能、万兆网络和AVX、横向扩展架构和分布式存储(Hadoop)等。

用友徐春华：并行计算与列存储是关键

用友医疗卫生信息系统有限公司副总裁、用友智慧健康研究院首席专家徐春华表示，对医疗数据处理平台来说，最重要的两点，是并行计算框架，和基于列的数据的存储架构。

徐春华认为，制约医疗数据处理的一个非常关键在于数据的历史版本太多。基于列的数据库技术，能够使它在运行时根据每一行确立它的数据结构，同类异构的数据，结构化的和非结构化的数据，可以存储在同一张表里进行统筹运用。并行计算框架则可以通过加入计算节点的方法，同时解决海量数据的存储和计算的扩展问题。