Delaware教授高光荣：大数据核心技术

责任编辑：editor006 |来源：企业网D1Net 2014-12-13 21:03:01 本文摘自：CSDN

2014年12月12-14日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中科院计算所与CSDN共同协办，以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会（Big Data Technology Conference 2014，BDTC 2014）暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

2014中国大数据技术大会首日全体会议上，University of Delaware电子与计算机工程系教授，计算机系统结构和并行系统实验室创始人暨主任高光荣，带来了演讲“大数据系统核心技术”。高光荣主要介绍了大数据系统面临的严重挑战，大数据系统核心技术简介，数据流与大数据引擎的创新以及大数据系统发展在中国的机遇与挑战。

University of Delaware电子与计算机工程系教授，计算机系统结构和并行系统实验室创始人暨主任高光荣

以下为演讲实录：

今天我们听了很多的报告，大数据到了最高点，距离真正的落地还有一个很长的时间。我只想把我最近做的一些工作和我历史上做一些工作总结起来，我没有很多广告的能力，但是也可能有一两张幻灯片为我做例证。我的演讲有两个方面：第一大数据HYPE Cycle的最新预测，第二怎么把大数据跟云计算结合起来。这个大数据不可能从天上掉下来，不可能把它割裂开，说我突然就有一个办法把我以前超机做的一些事情无关了，我们用另外一套办法把这个性能做上来，这种想法是可以理解的，但是不一定是现实的。在这个场合下我们说实时大数据，一定不要忘记长期的积累在高性能计算上这些积累，特别是中国由于各种需要，我们对高性能技术的工作也是有目共睹的。长沙的机器到现在为止仍然是世界上头一个，说明我们在这方面是一个前沿，我今天没有看到杨学之在这，但是我看到其他好几位其他同事，大数据实际上就是说这两件事情的关系，HPC跟大数据的关系。大数据实际上已经超过了最高炒作的内容，接下来应该是逐渐的走到了落地的阶段，然后有一个稳定的发展。它接着说两件事，一个是刚才我说的，HYPE Cycle大数据，注意是Reak Of inflated Expectations，用大数据做inflated Expectations，我们说的太多经验太少。我在深圳有一个朋友说大数据知识挖掘等等，最要紧对他来讲是钱的挖掘，能不能把大家所有的这些技术最后变成真正的实际效果，这一条我们实例还太少。同时他还有第三条建议，第三条建议就是千万不要忘记和小公司合作。他这个建议是给大公司的CTO、CIO说的，所以我觉得这三条是很好的一个总结，就是当前在HYPE Cycle这个方向。

我这剩下两条说明当前的挑战，这个问题就是说这个引擎要不要革命性的创新，还是说看看革命哪家比我强一点，我赶紧修理我这个，我是不是能超过A，超过A以后哪家比我好一点，还是说这个国家作为一个整体要做革命性的创新。我不说计算机里面的历史，我只想谈谈另外一个领域里的历史。100多年以前，飞机的问题是飞机引擎是不是可以把我们当时对汽车这个引擎的概念适用，不需要做革命性的概念这个事就可以做成，还是我不需要做这个飞机的事，后来你发现有一个新的模型，这个模型就是这个飞行动力学，从地面动力学模型到空间动力学模型，才能真正的造出这个引擎来，不是把汽车这个引擎革新，所以这个模型造成了新的结构，从腿到翅膀然后这个结构又发生了变化。在一百多年前那个历史是从模型到结构，我们计算机的发展实际上也是一样，在计算机历史上重大发现，都是有一个新计算模型一个执行模型，然后这个结构上的发展。我想我们大数据对我们做结构的人和做系统的人这个模型在什么地方？然后就有结构上的影响。

有了这个作为基础我们可以开始谈引擎核心结构的演变。我觉得大数据引擎的分析技术有三项。一项是执行模型和结构的技术。第二个系统软件的技术。第三是引擎的编程模型和优化技术，这三项相辅相成缺一不可的，做HPC的这群人都有过痛苦的经验和深刻的教训，这三方向的发展，在大数据引擎上面这三项也是非常重要的。我今天主要的是Execution Model，执行模型定义的一个API，叫做Execution Model API，然后你发展使得这个模型的定义双方有一个无缝连接，使得它能够达到你所需要的目的。最新的观点在这个上面，是这个Execution Model不仅仅影响这一层API，它同时也影响其他层之间的关系。所以这个事情非常重要，什么是Execution Model？比如说1948年总结的，那个Execution Model活这么多年，所有我们的接口，所有我们串型运算的接口在软件方面硬件方面这么长，我们一直试图整个的领域把成功经验用到并行操作和并行系统的执行模型，很可惜到今天仍没有成功。它的data不仅是程序自身产生的和程序自身确定的静态确定的这些数据，而是需要有动态的数据，什么叫做动态数据？比如所有传感器来的数据。你把问题表现成数学模型化然后编程而是要考虑这些大量随机的事务，Execution Model接入的数据，使这两种数据都可以使你系统里面无缝的结合起来。数据流的Execution Model没有这个旧年，数据里面甭管是可抗性的还是不可抗性，没有想象有一个温度的不可抗性，这个依赖关系没有办法表述。原来1970，1971年，1972年，1980年，这里面证明了Execution Model一致性完整性所有这些都需要重新的考验。我的意思就是说这个事情不能忘记，我们做大规模的处理历史经验非常重要。

什么叫做创新？创新意味着人类积累起来的知识不要忘记，在新环境下怎么让它适应Execution Model这是很重要一部分的创新。我们计算机系统领域有很大矛盾，我们常常非常容易的忘记过去，不是故意的，是事太多了，每年都在追，看看明年有什么，我赶快追，没有这个时间。

下面我用一个动画说明下Execution Model，在执行实现的时候误区在哪？这个误区就是把OS的作用给误解了，我的老师就是OS发起人之一很有名，他去年得最大的奖，他两个贡献，数据流是第二项，第一项是他在操作系统上做的贡献。这个动画就是Mechine Runtime Syelem。这个不是那个Runtime Syelem，这个有很多机器模型实现它，硬件跟Execution Model之间总会有一些坑坑洼洼不齐的地方。比如说你要求某一项操作在你Execution Model上，但是它硬件上，它的指令系统上，或者它系统结构没有直接反馈它，这时候你要做一层软件，它的任务就是补漏洞。这一层软件跟OS没有关系，最大的错误就是让OS执行这套软件。如果你注意最近这三年，美国主要的研究，都是强调Runtime Syelem和OS的关系，Runtime Syelem就是Execution Model跟OS的关系。并不是说OS没有用，但是它的任务是跟Runtime的分工。

系统软件上面并行多核，打破了传统OS控制打破了OS控制一体现象，支持高性能高扩展低能耗，弹性，面临空间的根本性的挑战。第三项有了这个系统，有了结构，当然你有编程模型和优化技术，我只想强调当前优化技术集中在静态优化方法，我们编程模型和优化技术都是假定，所有的都要用芯片来做，优化也是在这上面做。包括我自己的Execution Model做的一些工作都是假定硬件上有芯片，但是都是很小的规模，现在就是最重要的就是有动态调度，有并发多元管理在RUNTIME这里。李永辉教授今天上午的讲话，他第一条我听清楚了就是说即使在英特网上细颗粒度的监控，使得整体的计划变成动态的虚拟化，这个实际上跟那个是一回事，自调整都是建立在这个基础上，程序自己监控自己。

下面是我们有关工作的举例，只有四个例子，第一个例子我们建立数据流为背景动态细粒度多线程引擎核心技术的基地。第二巨型计算机，承担圈套以吸颗度多线程系统软件总体设计和工程实现，成功用于世界领先采用众核芯片技术的句型计算机（NE获投资总额超过三千万USD，2004-2011）。第三、研发超并行执行模型。承担超大模型数据流为背景的引擎执行模型的重大研究课题。四、研发超并行引擎，承担以数据流为基础的RUNTIME。系统软件重大发展研究。

下面初步例证跟Spark比，这是Spark结果是在中国测试的，所以这个HT就是用的数据流的技术，不是完全用，但是它那个思想是数据流的思想。在各个测试定位中你可以看到跟Spark比，在常常用的一些不同组的数据中，有五组数据，你可以看到就是说它的优点是明显的，如果你想问为什么，我人也在这你会后可以问。不仅是这样它的备存的用量实际上比Spark还要小，小5到10倍。

在中国的机遇和挑战，一个叫做他山之石可以攻玉，就像我们高铁一样，高铁不是在我这做的，高铁在欧洲、日本做的，别人做好的东西我们可以学习和借鉴，但是一定要跨越它的发展，这里我用红笔勾出来要从中国制造到中国创造。

关键字：数据流 1980年