Nvidia GPU并行计算高级顾问罗华平演讲

责任编辑：sjia |来源：企业网D1Net 2012-06-20 16:45:47 原创文章企业网D1Net

“高效制胜、扩展无限—Dell HPC 行业应用实践交流会”于2012年6月20日在北京悠唐皇冠假日酒店盛大召开，戴尔技术专家及行业技术精英和与会者切磋交流，共商HPC发展之大计。

以下是现场快递。（声明：本稿件来源为现场速记，可能有笔误和别字，仅供参考）

主持人：今天最后一个发言的是Nvidia GPU并行计算高级顾问罗华平。

Nvidia GPU并行计算高级顾问罗华平

罗华平：大家下午好，今天我讲的主要内容大概有四个方面，GPU简单的介绍，另外应用我们Tesla产品的介绍，另外给大家简单介绍一下GPU编程方式，另外我们GPU应用情况，主要是四个方面的内容。

什么是GPU计算？简单讲GPU计算是这几年非常火的话题，现在正在德国汉堡举行的国际超算年会上，GPU计算，或者加速器的计算方式也是比较热门的话题。GPU计算简单的讲，在我们标准X86的架构上，加上GPU来做处理，为什么加GPU，GPU有非常强大的处理能力，通过它来弥补CPU处理能力的不足，可以把大量的计算任务交由GPU来计算，CPU和GPU同时协作计算。

其实我们回过头来看一看Intel CPU发展情况，80年代初Intel刚刚发明CPU的时候，第一代8080，8086，其实那时候的CPU是没有浮点运算能力的，后来Intel为了弥补CPU这个不足，后来又发明了另外一个芯片，8087，专门的浮点处理器，协助CPU做浮点运算工作。所以说这种CPU加GPU的架构，很多事情我们回过头来看看有相似之处。所以说在这种架构中，我们也称混合的计算环境。

为什么利用GPU来做并行计算，最重要的一点就是我们GPU浮点运算能力非常强大，GPU访问带宽速度非常快。GPU的浮点，绿色的是GPU，蓝色的是CPU，CPU的浮点运算非常强。另外带宽也是一样，有很大的差距。上个月我们在美国硅谷我们还发布了新一代的Tesla产品，他的浮点运算能力又提高了至少一倍，我们现在跟CPU相比也能保持一个比较大的运算优势。

我们有一个小小的图可以看到编程的方式或者是数据流的工作模式，CPU把系统内存数据传到GPU内存中其，传完以后，对CPU发出指令去计算，GPU进行计算，计算完了以后再把结果传回到CPU，CPU做进一步的处理，这是我们CPU+GPU异构架构的工作模式，这是我们基本的数据流程。现在CPU和GPU的这种架构，已经得到了业界广泛的认可，在很多领域都得到了非常好的应用，在这里不详细说了，前面的报告里面也都介绍了不同的应用类型，总体来讲，GPU加速的方式，异构模式，对于我们绝大部分计算来说都有非常好的好处。我的印象中，我的客户得到了加速最是中科院力学所，他的程序移到GPU以后，据他们讲900倍的进行加速。

从我们每年超级计算机的排名我们也看到，这是在去年前年，我们在国内也是比较热门的话题，上午演讲中也提到过，天河一号，当初出来以后，是排名世界第一计算机，截止到这个月上个礼拜之前还保持在第二的位置，现在刚好是昨天在汉堡举行的超算年会上，新一届排名出来了，天河已经落到了第五位，星云已经落到第七位。这是最新的情况。但是在前十名中现在还有三名是用GPU来做的异构架构，在整个TOP500中，根据这次最新的排名，大概有13台机器进入了前五百，在三年前，08年我们只有一台机器进入前五百，现在已经有13台。

总体来讲，采用CPU+GPU异构架构对我们用户有非常好的好处，用户可以得到非常高的性能，用户在同样运算情况下可以得到更高性能的机器，性价比非常好，另外的话，能效非常好。同样计算能力下为大家节约计算空间。

下面我们简单看一下Tesla产品，我们刚刚发布新的产品，基于CUDA架构的GPU，我们每两年性能会翻一倍。Tesla K10，这个产品主要针对单精度运算应用，不适合做双精的应用。这个产品跟我们现在的M2090相比性能有了非常大的提高，他是在一个板上有两个GPU，总共有三千多个核，它的浮点运算能力到了4.58个T，大概是M2090三倍左右，但是他的功耗非常低。K10我们主要是用在石油、电子资料处理、加密、解密、视频解译。我们今年下半年还发布了新产品，K20，双精和单精性能都非常好的产品，大概是这样，今年年底会推出。

现在对GPU运行修改方式三种，第一种就是利用GPU函数库的方式，第二种是OpenACC的方式，第三种是CUDA/C Fortran的方式。这几种方法也可以结合起来使用，也可以使用一种、两种、三种，都可以。

我们稍微提一下OpenACC，OpenACC是一个开放的标准，现在不但要支持CPU还可以支持GPU，还有其他家的加速器，将来可以在不同的架构上运行。我们现在和PGI合作做了一个推广，我们有一个30天免费的使用，用户可以去下载应用。这种方式也非常有效，很多用户用起来也非常好。还有其他的案例，OpenACC的编程方式是非常有效的，效果非常快。

另外CUDA编程在这不想多说，主要提两点，第一点就是CUDA走向开放，以前CUDA是采用专有的编译器，现在采用的是开源的编译器，使CUDA支持新的硬件成为可能。第二点是开发CUDA X86。GPU的程序开发这个生态链是非常完善的，从硬件，Dell大厂家，然后我们的编译器，我们的工具等等，还有软件包等等。

GPU在几个领域都得到了非常好的应用，工业主要在石油天然气，GPU的机器目的成为了主流机器，最近中石油的处理中心购买了五百个GPU，我们Tesla中标了两百个GPU，教育科研，生命科学的研究等等，性能有了比较好的加速。另外在制造业，做结构分析，流体分析都可以支持，特别是结构分析。另外在我们政府密码破译，指纹识别，GPU也有非常好的应用。另外在金融风险分析，股票价格定价等等都有比较好的应用。

在我们网站上有一个列表，所有支持GPU应用的软件，我们都在这里详细列出来了，软件的名字，主要干什么的，然后它支持单GPU，多GPU，大概的加速是多少，我们都有一个介绍，用户使用的软件是否是GPU，可以到上面去查一查。

HPC最重要是并行化，从单GPU到多GPU，从单核到多核这样的发展历程。另外就是综合处理器，又叫加速器这种方式，加速器的方式是我们GPU发展的方向。另外CPU和GPU的融合，现在我们的架构CPU和GPU还是独立的，将来的发展是CPU和GPU会融合在一起，业界也做了一些工作。我的介绍就到这里，谢谢大家。

关键字：CPU