Mellanox互连解决方案助力深度学习平台取得全球领先性能

责任编辑：zhaoxiaoqin |来源：企业网D1Net 2017-06-23 10:53:16 本文摘自：企业网D1net

2017年6月22日，加州讯，世界领先的高性能计算、数据中心端到端互连方案提供商Mellanox(纳斯达克交易所代码: MLNX)今日宣布，目前已有大量先进的深度学习框架(如TensorFlow™、Caffe2、Microsoft Cognitive Toolkit 和百度 PaddlePaddle)借助Mellanox的智能卸载功能，为多台人工智能服务器提供世界领先的性能和近线性扩展能力。Mellanox的RDMA和网络内计算卸载以及 NVIDIA® GPUDirect™ 是帮助用户最大限度发挥其应用性能和系统效率的关键技术。

如今，很多行业和研究小组都开始利用深度学习技术解决大数据难题，如自然语言处理、语音识别、计算机视觉、医疗保健、生命科学、金融服务等等。全球最先进的机器学习平台采用Mellanox以数据为核心的高效卸载架构，将引领这些行业迈入高性能和高可扩展性的新时代。

TensorFlow 是一个开源软件库，最初由 Google 机器智能研究团队的研究人员和工程师开发。通过加入 RDMA 技术来取代传统 TCP，TensorFlow 的节点间数据交换性能提升了1 倍，可实现更快的图像处理。

百度的PaddlePaddle(并行分布式深度学习)是一个灵活、可扩展的深度学习平台。PaddlePaddle 支持多种神经网络体系架构和优化算法，因此可以轻松使用大量CPU和GPU来加速训练。通过RDMA技术，PaddlePaddle可实现高吞吐量和高性能，借助NVIDIA 和 Mellanox联合架构更先进的加速功能，能够将深度学习的训练速度提高1倍。

“先进的深度神经网络需要有智能互连方案作为支撑，可使其扩展到多个节点，并且获得最快的数据传输速度，从而提高算法效率并缩短训练时间” ，Mellanox公司市场部副总裁 Gilad Shainer 表示。 “借助Mellanox的技术和解决方案，机器集群现在能够以最佳的学习速度、准确性和扩展能力，突破最苛刻的认知计算应用极限。”

“深度学习应用的开发人员可以采用优化框架和 NVIDIA 即将推出的 NCCL 2.0 库，NCCL 2.0实现了对 InfiniBand的原生支持，多节点通信时会自动选择 GPUDirect RDMA技术，或在可用时为节点间通信选择NVIDIA NVLink” ，NVIDIA公司平台联盟部总监Duncan Poole 表示。 “NVIDIA NVLink技术用于基于 Pascal 的 Tesla P100系统，该系统包括配有四块Mellanox ConnectX®-4 100 Gb/s网卡的 NVIDIA DGX-1人工智能超级计算机。这样一来，开发人员可以专注于创建新的算法和软件功能，而不再需要对低层级通信集合进行性能调优。”

关键字：深度学习神经网络 InfiniBand