生命科学、气象行业高性能计算解决方案及成功案例分享

责任编辑:sjia

2012-06-20 16:41:20

来源:企业网D1Net

原创

“高效制胜、扩展无限—Dell HPC 行业应用实践交流会”于2012年6月20日在北京悠唐皇冠假日酒店盛大召开。

“高效制胜、扩展无限—Dell HPC 行业应用实践交流会”于2012年6月20日在北京悠唐皇冠假日酒店盛大召开,戴尔技术专家及行业技术精英和与会者切磋交流,共商HPC发展之大计。

以下是现场快递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

主持人:接下来我们有请的是Dell高性能计算产品技术顾问凌巍才,为我们分享生命科学、气象行业高性能计算解决方案及成功案例分享,有请。


Dell高性能计算产品技术顾问凌巍才

凌巍才:大家下午好,下面我来介绍一下生命科学还有气象行业,我们Dell高性能计算的解决方案,以及分享一些这个领域的成功案例。我在Dell公司负责这两个行业的技术解决方案的技术工程师。

我下午的内容主要有三个部分,一个是生命科学高性能计算解决方案,包括GPU加速还有存储的,另外介绍一下我们在气象行业里面曾经做的一个测试,WRF3.3版本,在Dell 的系统进行上测试,以及在这上面进行调优,最后分享一些案例。

在生命科学中,我们有很多用户,在这么多用户里面,很多用户都在采用GPU加速的方案。在介绍之前我大概介绍一下生命科学数据的流向,它通常,生命科学里面的基因分析,是最近几年新发展起来的一个学科,那么它主要前端通过测序仪,然后产生原始数据,然后通过计算机比对处理,处理完以后把成型的基因存到数据库里面,提供下游的分析。GPU主要对前端,测序以后进行比对其中的一小段来进行操作的。GPU刚才我们同事也讲过了,他是一种协处理器,那么他现在多核CPU是4核或者是8核处理器,通过MP,MD的处理方式,多线程,多数据的处理方式进行处理的。

GPU和CPU结合起来做集群是怎么搭建的,这是一个计算结点,这边是CPU,这里面有内存。然后这边是协处理器,这边是本地的存储,这边是高性能存储,整个是做计算通常的架构。那么现在这种架构做的非常多,包括TOP500里面很多机器都是采用这种架构做的。Dell在GPU解决方案里面提供一个非常全的产品系列,这个系列包括放在外部的,还有一个是放在机器里面的,放在主机系统外部我们有一款产品C410X,可以接不同的主机设备,他是外置的解决方案,这种方案非常独特,对一些特定的应用非常适合,另外这个是内置的解决方案,内置包括我们P620,R720,以及M610S都可以做。这个就是前面可以接十个GPU,后面插六个GPU,总共可以插十六个GPU,后面这边是电源可以接四个电源,这边可以有八个接主机的端口,最多可以接八台主机,然后里面插16块卡,可以做到1/2的比例。这样的产品主要把GPU计算和CPU的计算分开,这样的话易于GPU和CPU的修改和调试以及进行生产,配置灵活。另外维护GPU的时候服务器可以正常运行,维护主机的时候,GPU可以移到其他主机上进行运行。

GPU发展的非常快,以前有M20,50,现在有M20,90这些GPU,我们在这里面可以,我们机箱不用变,只换GPU就可以跟上GPU的发展趋势,这也是他的一个特点。再有一个,它非常省电,他是单独控电,一个GPU有250W,它的功耗非常大,如果把它同样放在一个机箱内部的话,散热的管理要很科学,相当于我们在做,假如说我们在做家庭装修供电的时候,我们照明供电是走一条细的线,空调是比较粗的供电线缆,这样的话可以极大的养地能耗,分开供电就可以降低它的能耗,因为线缆的粗细,电流增大一点的话,是平方级的增加,所以这个的话特别节点。

这就是一个GPU,可以放在插槽里面,非常易于管理和维护。它非常灵活,最主要的特点就是灵活,一台主机可以接很多个GPU,这样的话非常便于使用GPU的用户,对自己的应用程序进行调试,他可以通过一些设置,来配置成不同的GPU,对自己的应用程序进行调试,看哪种配置方式比较适合,这样的话极大的降低了用户的设备成本。

刚才是几种配置方式,这是另外一种方式,这种可以一台主机接四个GPU,这边是一台主机可以接八个GPU,这一种配置采用C410X的话,可以一台主机配多达八个GPU的配置,实际上我们还有一种最极端的配置,一台主机可以连十六个GPU,物理连接十六个GPU,在这种情况下,我们操作系统最多能看得到十三个GPU,也是有一定的限制。但是在这种情况下也已经非常好了,为什么我们要采用这种一对多的GPU连接方式呢,因为有一些应用程序,它的属性特别适合你把那些数据发到不同的GPU上去计算,这些数据之间相互关联性又很小,这样的话就特别适合于这种计算,包括刚才金鹏所介绍的,基因序列比对,以及T和Y比对的,这种应用程序的属性,当它把原始数据提交到GPU上来的时候,然后他只需要把比对数据提交过来,GPU自己就可以独立进行计算,而且他们之间也不需要太多的通讯,特别适合于这种类型的应用,并不是说这种配置方式适合所有的应用。

那么再一个,我们叫做三明治,两台C6100,他有四个计算节点,一共八个计算节点,这个里面配十六块GPU,这样的话他的比例,GPU和主机的比例是2:1,这是一种配置。这个我们叫做开放的三明治,他是配置了4:1,当你那个应用程序暂时还不用了这么多GPU的时候,可以用半三明治的方式,这里面配十六个GPU,四台节点,这样的话主机和GPU的配置是4:1。这是一个仿三明治,比例配到8:1,这个是十六个GPU,这个是十六个GPU,配置了四个节点,一共是32个GPU对4个主机节点,这样的话是8:1的配置,这个就是配置16:1的非常高端的配置,C614,是两台主机节点,这里面可以配16个GPU,这样的话他就可以配一个16:1的情况。

这张图看一下我们C410X,他是怎么样和前端来连接的,16个GPU放在这边,下边我们有8个HIC的借口,通过交换机连在一起,我们并不需要把机器拆开进行一对一的比对,我们只需要有一个控制界面,我们可以通过这个界面对立面插满GPU的C410X进行设置,看看他是几比几的。这是一个GPU的支持列表,有很多种,这是我们在上个月认证的,大部分Dell的服务器都会支持这个C410X的设备。这个就是做生命科学领域的测试,这个是一个GPU带四个GPU线性的增长,从这张图上面可以看出来,对这种应用来讲,特别适合于一对多的GPU解决方案。

这个也是分子动力学的应用程序,同样可以看出来,灰色是一台主机对四个GPU计算的性能,黄色是一个GPU,黄色是只用CPU,可以看得到,我们用四个GPU的话,他的线性增长率是非常好的。

这个就是我们另外一个分子动力学的应外,这个应用是什么概念呢,有可能我们很多,特别是做网络的人,他通常会说,你这个交换机是通过一个PCIE连很多GPU会不会有瓶颈,可以告诉大家,在某些应用的时候这个瓶颈是非常小的,在一个、两个和四个GPU的时候,I/O变化是不大的。做计算之间并不需要GPU和GPU之间进行频繁的数据交流,所以说这个可以打消一些客户的疑虑,我们这个是不会影响GPU之间通讯的效果。

刚才说的生命科学领域里面GPU,下面就介绍一下存储的方案,这张图是我从华大基因网站上拿下来的,这条绿色的线,可能大家有点看不清楚,这是摩尔定律,黄色片子是它的计算能力,现在他的存储容量是20个PB的容量,2012年他到达30个PB的容量,意味着每天要有上PB级的数据产生,数据非常大,现在如果把所有的物种基因都变成可以识别的数据存储起来的话,他的数据量增长非常大,华大基因现在也是全球最大的基因数据生产的领先企业。从这张图上可以看得到,对存储需求量非常大,他们有很多应用在做,他们崩塌考虑过,他们把自己的程序改带,也考虑基于HADO的框架,他们也在考虑Lustre的架构,因为他们这个数据容量是非常有挑战性的,10个PB的容量,2012年是50PB。我们现在可以提供基于Lustre的解决方案,Lustre的解决方案实际上是一种面向对象定型的文件系统,怎么通常的数据都是按块存到磁盘上来,他是先把这个数据定义一下,定义成一个对象,对象有个名字,然后有他的属性,有长度,然后真正的数据,他是按照目标对象存起来的。所以当一个计算节点对这个文件进行访问的时候,他可以同时访问不同的对象,所以他是并行的,效率非常高。因为现在有很多文件系统,如果一个计算机节点对这个文件进行访问的时候,会影响其他客户对这个文件的访问,这是非常先进的。

我们也有打包的解决方案,带宽可以到达9.65GB,这种高端的配置。实际上这种理论是很大的,理论上是无限大的,那么这个特别是大规模的集群系统用的非常多。

这个就是NSS的解决方案,这个解决方案我上午也介绍过了,可以支撑288个TB,主要通过在这个里面配置了五块盘,两块盘做操作系统,另外三块做虚拟内存,当客户端对他进行写的时候,一下就把这个写进去了,写完以后,这个写的操作就结束关闭了,所以说他非常快,性能非常好,这个我们已经介绍过了,基于InfiniBand的性能,可以到非常好的速度。

这个我也不讲了,都介绍过了。下面介绍一下WRF应用程序测试,主要做气象的,在Dell的720上面进行过测试,我们在做应用测试的时候,我们首先要对主机的BIOS进行设定,根据他的特点,内存设置成优化内存,我们再把电源设成最大化,操作系统是3.3,我们首先安装一些层次软件和一些编译器,装到HDF5,这是专门文件系统。运行出来以后,当时我第一次运行的时候,我挺高兴,我回去以后第二天早上一看机器死了,我不知道为什么,后来我用(RUT)运行的,从这个上面可以说明,高性能计算数据容量也是非常多的。测试结果,我们在测试一个星期后,完全结束以后生成了一些文件。

这就是我们的配置文件,在这里我给大家介绍一下,在这里面我们没有用到Intel的ABS技术编译指令。这是自动生成的,他自动分析你这个服务器里面有多少个处理器,处理器有多少个核,如果有16个核,他就自动分成16块进行计算,这是自动生成的,对CPU进行分析的话,CPU应用率是85%,还是比较高的。内存我们是配了65G,我们用了33G,还剩了32G,硬盘磁盘空间我们基本上没有动,这种应用的话,如果做配置的时候,不用配得特别大,配得大了应用供不上,就配大概一个核两到三个G的内存就可以了,磁盘区也不用做得很大。这是我们磁盘的情况,磁盘我刚才也说过,运行程序的磁盘空间要比较大。

我们打算用Intel的编译器进行优化,优化以后我们发现,首先要对MPI进行设置,他里面运行一个函数库,我们要用Intel的数学库的话性能会提升三倍,下面就是加速运算的结果。

案例分析,这就是我们做的华大基因的分析,我们怎么样做的计算节点,我们的网络、存储以及管理节点。这是我们做的清华大学生命科学院的网络结构图。北师大我们用的是GPU做的计算,他们正好采购了一个三明治。第四军医大学,国外就非常多了,就这么多,我的内容就这么多,谢谢大家!

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号