新华三携手NVIDIA：开启智能计算新篇章

责任编辑：zhaoxiaoqin

作者：赵晓勤

2018-07-04 13:37:39

随着智能科技和产业的发展，数据和计算正在成为驱动经济增长和发展的“关键要素”。人工智能在金融、零售、制造、医疗、教育等行业的应用充分说明了其在提高预测和采购能力、实现运营优化与自动化、开发精准营销和定价策略、改善客户体验等方面有着巨大潜能。

2017年全球新成立人工智能创业公司1100家，人工智能领域共获得投资152亿美元，同比增长141%。中国经济和社会转型升级中，智能化需求正逐步显现，人工智能将对传统行业和细分市场产生深远影响，如汽车行业，中国是全球最大的汽车市场，2016年国内售出了2803万辆汽车，同时中国也是全球最大的家电生产国和无人机生产国，人工智能将成为智能科技和经济发展的内生动力。

互联网模式取得的巨大成功，积累的大量数据成为人工智能数据分析的主要基石。同时在算法上，如神经网络、深度学习在学习成效上得到了巨大突破，中小规模的问题已经能应用于实际。然而在大规模的实际应用中，由于数据体量的庞大，数据增长快速、结构的多样、价值密度低等因素，对数据获取的实时性、存储、传输、处理、计算方面提出了全新挑战。以往的单个计算单元的串行运算已不能满足大数据背景下的需求，并行运算及云的计算方式成为解决单个运算单元在短时间内无法得到运算结果，以及提高运算单元利用率、提升学习效率问题的一剂良方。

算力，实现人工智能的核心能力

GPU成为人工智能领域解决算力的主要手段。GPU的特点是拥有多达几千个核和大量的高速内存，特别适合于大规模并行运算，GPU在“深度学习”领域发挥着巨大的作用。因为GPU可并行处理大量琐碎信息，深度学习所依赖的神经网络算法正是模拟人类神经元细胞的工作模式，利用大量处理单元构成的计算网络分析海量的数据。

NVIDIA全球OEM业务总监Joyce Tai

在图像识别、视频分析、语音识别以及自然语言处理GPU比单纯利用CPU更具有优势。正如NVIDIA全球OEM业务总监Joyce Tai所言，“用传统的CPU需要160个CPU，而且耗电量非常大。但今天用GPU这样的并行运算，用8块GPU卡就可以达到同样的效能，而且速度更快，所耗的电量也会少很多。”

同时“摩尔定律”放缓的迹象让算力的接力棒转交给了GPU。Joyce Tai表示，过去的二十年按摩尔定律的发展，每18个月晶体管的数量可以实现翻番增长，性能也是倍数增长。但过去的五年，开始出现发展停滞的现象。CPU一直想办法增加集成的电晶管数量，但性能并没有办法等比例增长。同时以线性的运算方式，也让它的耗电量变得很高。NVIDIA十年前开始研发并行运算，从2013年看，如果用摩尔定律的眼光来评价，GPU有非常大的进步，已不止是每18个月实现性能翻倍，而是以每年好几倍的速度在性能提升。

同时，NVIDIA也十分重视和生态伙伴的合作。在底层硬件与新华三、慧与有非常多的合作。比如HPE Apollo6500平台成为市场上主流的AI解决方案，HPE Proliant DL380成为目前全球最畅销的人工智能计算服务器。

优化GPU集群打造最优化AI基础设施

并行计算的高效使GPU被广泛用于机器学习的模型训练，在功率能耗上更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。GPU的集群成为AI的基础设施最核心的要素。

新华三集团工业标准服务器 GPU产品经理姚宏

是否是高效、性能优化的人工智能系统，新华三有明确的评判标准。新华三集团工业标准服务器 GPU产品经理姚宏一语道破：“评价一套GPU集群系统的效率是优化水平关键看GPU的利用率是否能达到很高的值。”

"有时用户配备了很高端的GPU服务器和计算卡，但把全部的负荷加载进去GPU利用率只有30%，这就说明整个集群的优化出现了问题。只有满负载的GPU利用率才是高效的GPU集群系统。这个方面，我们新华三集团可以帮助用户建立高效的GPU系统。"

一套GPU集群一般会包括GPU服务器、集中存储、集群网络、系统软件四个部分组成。GPU服务器又分为学习和训练的GPU服务器和线上的推理服务器。新华三公司针对AI应用的需求特点，提供了完整的产品方案系列，帮助用户快速构建高效易用的人工智能系统。其中学习和训练服务器，新华三提供了，H3C UniServer R5200 G3、HPEApollo6500两款产品;用于线上的推理服务器是H3C UniServer R4900 G3。

R5200G3 服务器为了充分发挥CPU/GPU协同计算能力，专门设计了优化的CPU和GPU通讯链路，让CPU和GPU具有高带宽、低延迟卓越的通讯效率;扩展性上，最大可以扩展10个双宽的GPU，或扩展20个单宽的GPU，为用户带来强劲的单机计算能力。R5200G3支持10块热插拔硬盘，以及高冗余的风扇和电源，确保产品高可用的持续运行。Apollo6500服务器支持Nvlink2.0高速互联，对海量数据具有超强的处理能力。

在存储方面，新华三凭借高性能计算领域丰富经验为人工智能用户推荐了并行存储方案，基于并行文件系统将多套存储阵列聚合为一个资源池，为用户带来海量存储空间和随容量线性增长的优异的读写性能。

为了适应多机并行训练的技术发展趋势，新华三公司率先采用业界领先的100Gb网络作为人工智能的核心网络，结合新华三集群管理软件工具以及性能出色的GPU服务器和并行存储，新华三为给用户提供一套非常高效率运行的基础架构的AI平台。

性能突破构建无损的以太网

机器学习中，大量的数据要在服务器集群里流动，网络开销成为计算效率损耗的重要源头。节点间需要一个高速的网络，因此RDMA技术在人工智能领域的应用越来越广泛。RoCE(RDMA over ConvergeEthernet)架构提供了在以太网中承载RDMA应用的解决方案，这个以太网必须是一个无损的(LOSSLESS)以太网。新华三参与各大互联网客户尤其是BAT的人工智能的业务测试过程中积累了丰富的经验。

新华三集团互联网系统部网路架构师吴银怀

新华三集团互联网系统部网路架构师吴银怀表示，“新华三在交换设备出厂时会对交换设备Buffer阈值等参数进行预先设定，覆盖大多数人工智能业务场景的需求。如果有更为个性化的参数设定要求(比如队列headroom、Reset值等)。新华三交换机设备提供用于个性化参数设定所需的命令行，并且命令行在不断丰富和完善，也提供原厂的研发级支撑，配合客户进行现场测试，对人工智能的网络环境进行优化。“

此外，新华三还提供了高速网络的可视化管理解决方案，可实现转发路径可视、Buffer可视、通过对PFCPause帧发送数量及发送速率、ECN相关报文统计，实现流控可视化，了解传输网络节点的拥塞情况，从而更好的避免网络拥塞达到无损。

资源池化加速AI开发进程

让专业的人干专业的事，在人工智能这种科技密集型产业更是如此。让算法工程师专注于建模、数据分析而把环境部署、参数配置交给平台去做。

新华三集团技术战略部资深专家徐心平

新华三提出公共科学计算平台的解决方案。新华三集团技术战略部资深专家徐心平介绍，公共科学计算平台将服务器存储网络，高性能的计算节点、GPU服务器建成一个资源池，为算法工程师提供非常自动化的专业平台。

“首先他是个资源池，最底层是基础设施、服务器、CPU、包括各种类型，刀片，高密的，两路，四路的、高性能的存储、网络;其次，可以做到资源共享和隔离，，支持多种计算框架，提供从数据到最后推理的数字化流程。成为AI模型的生产线，从数据采集，格式化，通过算法库建模、优化、搜索，做模型评估发布，整个过程要通过平台实现自动化。最后，能针对专业的AI和开发者做定制化开发。针对业界比较流行的专业计算框架、依赖，包括流行的模型以可视化的方式运行，训练做模型优化。”

计算智能华三