当前位置:服务器行业动态 → 正文

全面解读DeepLearning11深度学习服务器

责任编辑:editor005 作者:李佳惠 |来源:企业网D1Net  2017-10-31 15:08:00 本文摘自:it168网站

今天展示的可能是大家最为推崇的一种对深度学习的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU,是Mellanox的 Infiniband系列,外形尺寸是4.5U。该系统与DeepLearning10之间有重要的区别,主要是添加了8个GTX 1080 Ti显卡。 DeepLearning11 采用single-root的设计 ,这种设计已经在深度学习领域中流行起来了。

之前已经有了许多深度学习的构建,很多机器已经投入使用。其中有一些较小的版本,包括之前发布的DeepLearning01和DeepLearning02。它们仅仅是个开端,但DeepLearning11完全不同。现在这个架构已经被世界前十的超大规模深度学习企业所使用。

DeepLearning11:组件

如果我们要求使用NVIDIA可能会被告知需要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别要求服务器原始设备制造商(OEM)不要在服务器中使用他们的GTX卡。当然,这仅仅意味着经销商在交付客户之前安装这些卡。

该系统采用的是超微的 SYS-4028GR-TR2,它是市场上主流的高GPU密度系统之一。TR2非常重要,因为它是机箱的single root 版本,不同于DeepLearning10的-TR dual root 系统。

▲DeepLearning11 GTX 1080 Ti Same CPU

与DeepLearning10的构建相似,DeepLearning11具有“隆起”,使系统总体积达到4.5U。你可以从服务器“Humping”趋势在数据中心的部分了解到更多。它使我们能够在自己的系统中也使用NVIDIA GeForce GTX卡。

▲超微4028GR-TR/ -TR2

我们正在使用Mellanox ConnectX-3 Pro VPI适配器,它既支持40GbE(主实验室网络)也支持56Gbps的 Infiniband(深度学习网络)。尽管已经在使用它,但是使用FDR Infiniband与RDMA在目前来说还是十分受欢迎的。1GbE或是10GbE的网络根本不能足够快地供给这些机器。于是我们在在实验室中安装了一个Intel Omni-Path交换机,这将是该实验室的首个100Gbps结构。

▲Mellanox ConnectX-3 Pro

在CPU和RAM方面,我们使用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些系统的常见芯片,它们是最低端的主流处理器,支持9.6GT / s QPI的速度。而我们正在使用的是英特尔至强E5-2628L V4 CPU,因为单根设计会赋予另一个重要的优势,将不再只是GPU间的QPI流量。虽然有可能可以使用单个GPU来为系统供电,但是我们仍然使用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些系统可以承受高达24个DDR4的LRDIMM从而获得大量的内存容量。

对于那些使用NVIDIA nccl库的深度学习者来说,常见的PCIe是非常重要的。这也是许多深入学习的构建不会转换到更高的PCIe数量的原因,它通常是更高的延迟或是更受限制的设计,如AMD EPYC与Infinity Fabric。

系统成本

在成本明细方面,如果使用英特尔E5-2650 V4芯片,这可能是什么样子:

与AWS g2.16大型实例类型相比,总价约16,500美元的投资回收期在90天以内。以下是相关的托管费用。

将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较,你可以看到,在整体系统成本方面,大约25%的性能损失较小:

正如人们所想象的那样,添加更多的gpu意味着系统其余部分的开销将有可能超过这些gpu。因此,如果你的应用程序可扩展性比较好,每个系统可能得到10个gpu。

DeepLearning11:环境因素

我们的系统有四个psu,这对于10个 GPU的配置是必要的。为了测试这个,我们让系统运行一个巨大的模型几天,看看有多少功耗被使用。以下是是10个GPU服务器的能耗,看起来就像是PDU运行Tensorflow GAN的工作负载的情况:

从上图可以看到,大约2600W确实是不错。根据模型在训练中的位置,这台机器在3.0 - 3.2kw范围内,持续功率消耗更高,却没有触及到gpu的功率限制。

这个峰值在深度学习领域上,几个星期内使用不同的问题和框架,它的高峰值仍不足4kW。使用4kW作为基础,就可以很容易地计算出这种机器的托管成本。

正如你所看到的,12个月以来,托管成本方面开始缩小硬件成本。但其实,使用的是实际的数据中心实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较,你可以看到添加500W额外计算的影响:

添加额外的gpu与系统成本相比,会增加运营成本,这是与DeepLearning10相比的状况。随后几年,托管成本将会远远超过硬件成本。

DeepLearning11:性能影响

本文最重要的是想要展示从这个新系统中获得了多少性能。1600美元的系统和1.6万美元的系统之间存在很大的差异,因此我们预计其影响也会类似。采集了我们的样本Tensorflow,生成Adversarial Network(GAN)图像训练测试用例,并在单卡上运行,然后进入10个GPU系统,用每天的训练周期来表达结果。这是一个很好的说明如何在系统的购买价格中增加1400美元或更多的例子。

  写在最后

正如人们所想象的那样,DeepLearning10和DeepLearning11消耗了大量的功耗。仅仅这两个服务器的平均功率就超过5kW,峰值更高。这对主机有很大的影响,因为在许多机架中增加0.5RU并不重要。大多数的机架其实不能提供25kW +的电源力和冷却能力以满足GPU服务器的需求。

最终,我们希望在实验室中拥有一个重要的Single Root系统,而DeepLearning11及其10个NVIDIA GTX 1080 Ti 11GB GPU则具备这一点。由于我们提倡首先扩大GPU的大小,从每台机器的GPU数量到多台机器,DeepLearning11既是一个伟大的顶级单机,同时也是基于设计可以扩展到多台机器的平台。

关键字:GPU服务器PCIe

本文摘自:it168网站

x 全面解读DeepLearning11深度学习服务器 扫一扫
分享本文到朋友圈
当前位置:服务器行业动态 → 正文

全面解读DeepLearning11深度学习服务器

责任编辑:editor005 作者:李佳惠 |来源:企业网D1Net  2017-10-31 15:08:00 本文摘自:it168网站

今天展示的可能是大家最为推崇的一种对深度学习的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU,是Mellanox的 Infiniband系列,外形尺寸是4.5U。该系统与DeepLearning10之间有重要的区别,主要是添加了8个GTX 1080 Ti显卡。 DeepLearning11 采用single-root的设计 ,这种设计已经在深度学习领域中流行起来了。

之前已经有了许多深度学习的构建,很多机器已经投入使用。其中有一些较小的版本,包括之前发布的DeepLearning01和DeepLearning02。它们仅仅是个开端,但DeepLearning11完全不同。现在这个架构已经被世界前十的超大规模深度学习企业所使用。

DeepLearning11:组件

如果我们要求使用NVIDIA可能会被告知需要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别要求服务器原始设备制造商(OEM)不要在服务器中使用他们的GTX卡。当然,这仅仅意味着经销商在交付客户之前安装这些卡。

该系统采用的是超微的 SYS-4028GR-TR2,它是市场上主流的高GPU密度系统之一。TR2非常重要,因为它是机箱的single root 版本,不同于DeepLearning10的-TR dual root 系统。

▲DeepLearning11 GTX 1080 Ti Same CPU

与DeepLearning10的构建相似,DeepLearning11具有“隆起”,使系统总体积达到4.5U。你可以从服务器“Humping”趋势在数据中心的部分了解到更多。它使我们能够在自己的系统中也使用NVIDIA GeForce GTX卡。

▲超微4028GR-TR/ -TR2

我们正在使用Mellanox ConnectX-3 Pro VPI适配器,它既支持40GbE(主实验室网络)也支持56Gbps的 Infiniband(深度学习网络)。尽管已经在使用它,但是使用FDR Infiniband与RDMA在目前来说还是十分受欢迎的。1GbE或是10GbE的网络根本不能足够快地供给这些机器。于是我们在在实验室中安装了一个Intel Omni-Path交换机,这将是该实验室的首个100Gbps结构。

▲Mellanox ConnectX-3 Pro

在CPU和RAM方面,我们使用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些系统的常见芯片,它们是最低端的主流处理器,支持9.6GT / s QPI的速度。而我们正在使用的是英特尔至强E5-2628L V4 CPU,因为单根设计会赋予另一个重要的优势,将不再只是GPU间的QPI流量。虽然有可能可以使用单个GPU来为系统供电,但是我们仍然使用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些系统可以承受高达24个DDR4的LRDIMM从而获得大量的内存容量。

对于那些使用NVIDIA nccl库的深度学习者来说,常见的PCIe是非常重要的。这也是许多深入学习的构建不会转换到更高的PCIe数量的原因,它通常是更高的延迟或是更受限制的设计,如AMD EPYC与Infinity Fabric。

系统成本

在成本明细方面,如果使用英特尔E5-2650 V4芯片,这可能是什么样子:

与AWS g2.16大型实例类型相比,总价约16,500美元的投资回收期在90天以内。以下是相关的托管费用。

将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较,你可以看到,在整体系统成本方面,大约25%的性能损失较小:

正如人们所想象的那样,添加更多的gpu意味着系统其余部分的开销将有可能超过这些gpu。因此,如果你的应用程序可扩展性比较好,每个系统可能得到10个gpu。

DeepLearning11:环境因素

我们的系统有四个psu,这对于10个 GPU的配置是必要的。为了测试这个,我们让系统运行一个巨大的模型几天,看看有多少功耗被使用。以下是是10个GPU服务器的能耗,看起来就像是PDU运行Tensorflow GAN的工作负载的情况:

从上图可以看到,大约2600W确实是不错。根据模型在训练中的位置,这台机器在3.0 - 3.2kw范围内,持续功率消耗更高,却没有触及到gpu的功率限制。

这个峰值在深度学习领域上,几个星期内使用不同的问题和框架,它的高峰值仍不足4kW。使用4kW作为基础,就可以很容易地计算出这种机器的托管成本。

正如你所看到的,12个月以来,托管成本方面开始缩小硬件成本。但其实,使用的是实际的数据中心实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较,你可以看到添加500W额外计算的影响:

添加额外的gpu与系统成本相比,会增加运营成本,这是与DeepLearning10相比的状况。随后几年,托管成本将会远远超过硬件成本。

DeepLearning11:性能影响

本文最重要的是想要展示从这个新系统中获得了多少性能。1600美元的系统和1.6万美元的系统之间存在很大的差异,因此我们预计其影响也会类似。采集了我们的样本Tensorflow,生成Adversarial Network(GAN)图像训练测试用例,并在单卡上运行,然后进入10个GPU系统,用每天的训练周期来表达结果。这是一个很好的说明如何在系统的购买价格中增加1400美元或更多的例子。

  写在最后

正如人们所想象的那样,DeepLearning10和DeepLearning11消耗了大量的功耗。仅仅这两个服务器的平均功率就超过5kW,峰值更高。这对主机有很大的影响,因为在许多机架中增加0.5RU并不重要。大多数的机架其实不能提供25kW +的电源力和冷却能力以满足GPU服务器的需求。

最终,我们希望在实验室中拥有一个重要的Single Root系统,而DeepLearning11及其10个NVIDIA GTX 1080 Ti 11GB GPU则具备这一点。由于我们提倡首先扩大GPU的大小,从每台机器的GPU数量到多台机器,DeepLearning11既是一个伟大的顶级单机,同时也是基于设计可以扩展到多台机器的平台。

关键字:GPU服务器PCIe

本文摘自:it168网站

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^