全面解读DeepLearning11深度学习服务器

责任编辑：editor005

作者：李佳惠

2017-10-31 15:08:00

摘自：it168网站

今天展示的可能是大家最为推崇的一种对深度学习的构建。以下是是10个GPU服务器的能耗，看起来就像是PDU运行Tensorflow GAN的工作负载的情况:　　从上图可以看到，大约2600W确实是不错。

今天展示的可能是大家最为推崇的一种对深度学习的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU，是Mellanox的 Infiniband系列，外形尺寸是4.5U。该系统与DeepLearning10之间有重要的区别，主要是添加了8个GTX 1080 Ti显卡。 DeepLearning11 采用single-root的设计，这种设计已经在深度学习领域中流行起来了。

之前已经有了许多深度学习的构建，很多机器已经投入使用。其中有一些较小的版本，包括之前发布的DeepLearning01和DeepLearning02。它们仅仅是个开端，但DeepLearning11完全不同。现在这个架构已经被世界前十的超大规模深度学习企业所使用。

DeepLearning11：组件

如果我们要求使用NVIDIA可能会被告知需要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别要求服务器原始设备制造商(OEM)不要在服务器中使用他们的GTX卡。当然，这仅仅意味着经销商在交付客户之前安装这些卡。

该系统采用的是超微的 SYS-4028GR-TR2，它是市场上主流的高GPU密度系统之一。TR2非常重要，因为它是机箱的single root 版本，不同于DeepLearning10的-TR dual root 系统。

▲DeepLearning11 GTX 1080 Ti Same CPU

与DeepLearning10的构建相似，DeepLearning11具有“隆起”，使系统总体积达到4.5U。你可以从服务器“Humping”趋势在数据中心的部分了解到更多。它使我们能够在自己的系统中也使用NVIDIA GeForce GTX卡。

▲超微4028GR-TR/ -TR2

我们正在使用Mellanox ConnectX-3 Pro VPI适配器，它既支持40GbE(主实验室网络)也支持56Gbps的 Infiniband(深度学习网络)。尽管已经在使用它，但是使用FDR Infiniband与RDMA在目前来说还是十分受欢迎的。1GbE或是10GbE的网络根本不能足够快地供给这些机器。于是我们在在实验室中安装了一个Intel Omni-Path交换机，这将是该实验室的首个100Gbps结构。

▲Mellanox ConnectX-3 Pro

在CPU和RAM方面，我们使用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些系统的常见芯片，它们是最低端的主流处理器，支持9.6GT / s QPI的速度。而我们正在使用的是英特尔至强E5-2628L V4 CPU，因为单根设计会赋予另一个重要的优势，将不再只是GPU间的QPI流量。虽然有可能可以使用单个GPU来为系统供电，但是我们仍然使用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些系统可以承受高达24个DDR4的LRDIMM从而获得大量的内存容量。

对于那些使用NVIDIA nccl库的深度学习者来说，常见的PCIe是非常重要的。这也是许多深入学习的构建不会转换到更高的PCIe数量的原因，它通常是更高的延迟或是更受限制的设计，如AMD EPYC与Infinity Fabric。

系统成本

在成本明细方面，如果使用英特尔E5-2650 V4芯片，这可能是什么样子：

与AWS g2.16大型实例类型相比，总价约16,500美元的投资回收期在90天以内。以下是相关的托管费用。

将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较，你可以看到，在整体系统成本方面，大约25%的性能损失较小：

正如人们所想象的那样，添加更多的gpu意味着系统其余部分的开销将有可能超过这些gpu。因此，如果你的应用程序可扩展性比较好，每个系统可能得到10个gpu。

DeepLearning11:环境因素

我们的系统有四个psu，这对于10个 GPU的配置是必要的。为了测试这个，我们让系统运行一个巨大的模型几天，看看有多少功耗被使用。以下是是10个GPU服务器的能耗，看起来就像是PDU运行Tensorflow GAN的工作负载的情况:

从上图可以看到，大约2600W确实是不错。根据模型在训练中的位置，这台机器在3.0 - 3.2kw范围内，持续功率消耗更高，却没有触及到gpu的功率限制。

这个峰值在深度学习领域上，几个星期内使用不同的问题和框架，它的高峰值仍不足4kW。使用4kW作为基础，就可以很容易地计算出这种机器的托管成本。

正如你所看到的，12个月以来，托管成本方面开始缩小硬件成本。但其实，使用的是实际的数据中心实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较，你可以看到添加500W额外计算的影响:

添加额外的gpu与系统成本相比，会增加运营成本，这是与DeepLearning10相比的状况。随后几年，托管成本将会远远超过硬件成本。

DeepLearning11:性能影响

本文最重要的是想要展示从这个新系统中获得了多少性能。1600美元的系统和1.6万美元的系统之间存在很大的差异，因此我们预计其影响也会类似。采集了我们的样本Tensorflow，生成Adversarial Network(GAN)图像训练测试用例，并在单卡上运行，然后进入10个GPU系统，用每天的训练周期来表达结果。这是一个很好的说明如何在系统的购买价格中增加1400美元或更多的例子。

　　写在最后

正如人们所想象的那样，DeepLearning10和DeepLearning11消耗了大量的功耗。仅仅这两个服务器的平均功率就超过5kW，峰值更高。这对主机有很大的影响，因为在许多机架中增加0.5RU并不重要。大多数的机架其实不能提供25kW +的电源力和冷却能力以满足GPU服务器的需求。

最终，我们希望在实验室中拥有一个重要的Single Root系统，而DeepLearning11及其10个NVIDIA GTX 1080 Ti 11GB GPU则具备这一点。由于我们提倡首先扩大GPU的大小，从每台机器的GPU数量到多台机器，DeepLearning11既是一个伟大的顶级单机，同时也是基于设计可以扩展到多台机器的平台。

GPU 服务器 PCIE