英特尔大数据同样玩的是生态

责任编辑：editor007 |来源：企业网D1Net 2015-06-25 18:05:35 本文摘自：电脑商情报

没有人会质疑英特尔是一个打造生态链的高手。智能生态系统、软件生态系统、物联网生态系统、大数据开源生态系统……不一而足。对于英特尔来说，在一个领域能否成功就意味着一个生态系统是否繁茂。

在大数据领域，英特尔正在通过推动开源发展，建立和扩大其大数据生态系统。数据为证：在Hadoop开源社区中，英特尔的贡献排在Hortonworks、Cloudera和Yahoo之后，位居第4。在Spark生态系统中，英特尔的贡献也名列前茅。Spark是目前继Hadoop之后比较火的大数据处理开源社区。英特尔公司从2012年开始向Spark开源社区贡献。在Spark生态系统里，英特尔一方面与本地行业开展了大量合作。比如提供咨询服务，帮助优化Spark生态系统平台。同时，英特尔也为此开展了一系列的参与会议、培训等等。

五大投资方向支持开源

英特尔软件与服务事业部大数据技术中心全球总经理马子雅，在接受记者的采访时这样概括她的团队主要职能：一是持续推进基于英特尔架构的硬件与软件技术的研发和彼此的优化，充分释放硬件性能；二是通过加强开源社区的各领域的合作，优化英特尔的硬件平台，并通过与业界合作，完善在IA架构上的用户体验；三是，加强和深化在应用分析领域里的各方合作。

这两年，“释放大数据潜能”成为了普遍需求，如何真正释放大数据的潜能，各家却做法不一。马子雅在采访中表示，开源与合作是英特尔在大数据方面的明确方向。而围绕开源社区的推进工作，英特尔也确立了五大投资方向：首先是分析，其次是Spark，第三是SQL，四是存储，五是云实现。

对于Spark成为英特尔的重点投资对象之一，马子雅这样谈到：“在开源里面有很多很多的项目。我们具体去做哪一个呢？几年之前Hadoop是特别热的，慢慢的Hadoop加入了Spark的成份，为什么？因为Hadoop的数据处理的模块叫MapReduce，它的运行速度不是特别令人满意。而Spark是利用对内存直接进行运算，所以它在特定的情况下运行速度甚至可以达到MapReduce的上百倍。”

怎么样把大数据跟云计算更好的结合在一起，是目前非常明显的发展趋势，把“云实现”作为重点投资就不难理解了。

“在物联网、大数据方面，还没有哪家企业能够具备统一化的技术平台，也没有一个产品是可以完全主导一个市场的。所以我们在开源里还是要做一些具有普遍意义的具体事情，比如API。具体而言，就是提供在英特尔平台上的JAVA Library，通过这种方式让更多的使用者，在需要用英特尔优化一些产品时，可以直接通过英特尔的硬件，包括固件提供的API、JAVA Library来达到对整个应用程序，或者Hadoop跟Spark产品在英特尔平台上的优化。”马子雅具体介绍说。

值得一提的是，英特尔长期以来与Oracle都保持着非常良好的，对JAVA进行优化的合作关系，这对大多数习惯用JAVA来写大数据应用程度的开发者来说更加便利。

如何解决数据分析规模化问题

我们都知道数据分析有三个方面非常重要除速度和安全外，规模化是很多企业都在面临的一个难题和课题。对此马子雅谈到：“围绕着数据分析规模化，也是目前我们主要的工作之一。我们也在跟其他的同行，诸如Cloudera、DataBricks、UC Berkeley AMPLab、京东，华为、微软一起，在Spark的社区里，共同加速Spark分析规模化。而英特尔主要是让GraphX在分布式环境里做计算，从而让分析规模化。在这之上，英特尔还另外有一些涉猎，比如Spark R。现在很多应用程序都是用R来写，程序人对R语言的了解程度更深。但是他们对规模化，对分布式环境还没有概念。所以我们通过做SparkR这样的一些模块，使他们用R写的应用程序，可以自动跑在分布式的环境里，从而达到对数据分析规模化的要求。”

“为什么大数据现在会这么热？是因为它能够真正解决一些实际的问题。比如，更有效地处理数据。也正因为如此，大数据的应用软件就变得非常重要。对于用户而言，他并不在乎用什么样的硬件，甚至都不在乎用什么样的Hadoop或者是Spark的产品。只要给我一个高性能的、有效的应用程序、应用软件就好了。所以应用软件在一定程度上决定了Spark，包括Hadoop的整个生态系统的未来走向。而这一层的数据平台的未来走向又决定了硬件应当怎样更好的发展，来适应大数据的要求。”马子雅在最后总结说。

在很多采访中，英特尔的发言人都在传递一个相同的观点，在英特尔内部，英特尔架构部门与软件与服务部门，一个更偏重硬件产品的设计，另一个是让软件能够与硬件结合得更紧密。

的确，用这一观点去反观英特尔目前的发展路线图你会发现：英特尔的两大主要阵营一端是高性能计算，另一端是消费电子，将计算平台向两端延伸是这些年英特尔比较清晰的路线。如今，英特尔正在通过可扩展的软硬件产品路线图，促进传统系统与云的连接，实现端到端的解决方案，以确保设备和现有基础设施产生的数据在云端安全共享，用于分析目的，并从大数据中挖掘商业价值。

关键字：SparkR IA GraphX