当前位置:芯片市场动态 → 正文

谷歌开发TPU到底值不值?

责任编辑:editor006 作者:朱朋博 |来源:企业网D1Net  2017-04-24 16:01:47 本文摘自:doit网络

4月5日,谷歌的一篇博客提到TPU张量处理器, TPU最早是六年前开始出现的,随着需求的增多,发现有些设备还是太贵了,随着人工智能的发展,未来谷歌对人工智能的计算需求需要谷歌数据中心规模翻一番,规模翻倍不要紧,但不必要的成本压力谁都不想承担,为了解决这一问题,所以就有了TPU。

TPU是一种补充

张量处理器(TPU)的出现并不是为了取代做通用计算的CPU,或者是擅长图形计算的GPU,而是作为一种补充。谷歌只是觉得GPU的通用性太高了,所以有了TPU,未来还会买很多CPU和GPU。

尽管如此,但由于谷歌TPU论文引起的反响太大,感应到威胁的英伟达很快做出的回应,英伟达回应说,GPU在机器学习的推理(inferencing)方面相对于TPU有一些优势,还能用于机器学习中神经网络的训练。英伟达的GPU更通用一些,谷歌的TPU则比较专注于一个点。

英伟达回应对谷歌在论文中进行的对比的细节有些意见,黄仁勋表示GPU的通用性高一些, 先是肯定TPU在深度学习的张量处理领域有一些重合,随后通过一些细节来论证GPU相对于TPU的优势,这也算是不大不小的撕逼吧。

谷歌说:TPU相对于CPU,GPU的性能优势

如今,谷歌的许多产品都用到了TPU,比如谷歌图像搜索,谷歌照片,谷歌翻译,还有AlpheGo。最引人关注是在谈性能的部分,为了让大家感受TPU性能的优势,拿来做对比的自然少不了CPU和GPU。

 

谷歌生产环境的AI负载就有许多神经网络推理(inferencing)的部分,跑这一负载的时候,TPU比GPU和CPU快15倍至30倍;TPU比传统芯片能效更高,能达到30倍至80倍的提升;跑应用需要的代码只有100到1500行,该代码基于谷歌开源的机器学习框架TensorFlow。

与一颗18核的Haswell 至强E5-2699 v3或者一块英伟达Kepler GK210B相比,TPU对谷歌TensorFlow框架支持的更好。

虽然Haswell至强也支持8位整数运算,64位双精度和32位单精度浮点运算,但是在神经网络的环境下性能明显下降,至强处理器在整数模式下的吞吐量并不高,远不如TPU在浮点模式下的表现。

Kepler GK210B GPU不支持8位整数运算,只支持32位以及64位浮点模式,其在吞吐方面的表现与TPU对比也相形见绌:

 

上图TOPS一栏,在TensorFlow框架运行谷歌的推理(inferencing)工作负载的时候,Haswell E5能跑出2.6 TOPS,K80能跑出2.8 TOPS,TPU能跑出92 TOPS,是前者的三十多倍。

英伟达:对比的产品根本没有针对人工智能负载做优化

一般来说基准测试都有一定说服力的,但这次测试,有人表示Keplers落后于最新的Pascal架构CPU两代,谷歌的这个对比有失公允。英伟达加速计算副总裁表示,Kepler是2009年推出的针对传统HPC问题的GPU,K80设计的时候根本没考虑深度学习的问题。

随着GPU被用在机器学习领域,英伟达也在产品上不断做优化。2016年采用Pascal架构的Tesla P40刚推出的时候,TPU在深度学习方面的性能表现是K80的20倍。

2016年,英伟达推出了采用Pascal架构的P4和P40,除了支持半精度的16位浮点运算外,还支持8位整数运算,这个跟谷歌的TPU是一样的。

P4基于GP104芯片,有2560颗CUDA处理器,在运行推理(inferencing)工作负载的时候理论峰值性能达21.8 TOPS,峰值功耗为75瓦。P40基于GP102芯片,有3840颗CUDA核心,运行推理(inferencing)工作负载时的理论峰值性能为47 TOPS,功耗为250瓦。

谷歌在论文提到P40可以有47 TOPS推理(inferencing)性能,但没提到,99%的事务(transactions)平均响应时间控制在10毫秒,这一对于谷歌机器学习做推理(inferencing)负载时的重要参数。谷歌表示它的28纳米工艺TPU可以以700 GHz运行,主存储器内存从DDR换成了GPU常用的GDDR5,所有这一切只额外增加10瓦功耗。

英伟达新品的测试表现

可能因为不满英伟达对谷歌对TPU和GPU的对比结果,英伟达用开源的GoogLeNet卷积神经网络应用程序进行了一些测试,这改善了英伟达在推理(inferencing)工作负载中的表现:

 

图表中有一个有趣的细节,英伟达在表格中只显示了数MB的on-chip内存,而没显示数GB的on-card内存。

P40的GP102芯片有24 GB的GDDR5内存,K80的GK210B芯片有都12 GB的GDDR5内存,以及8 MB的on-chip内存。TPU有28 MB on-chip内存以及32 GB DDR3内存。GB的内存是用来存储深度学习模型的地方。

英伟达测出TPU最高性能是90 TOPS,谷歌测出的是92个TOPS,谷歌测出P40显卡在8位整数运算时候的最高性能为48 TOPS,英伟达测出的是47 TOPS。

运行GoogLeNet推理(inferencing)工作负载,一个重要的数据是,99%的事务(transactions)平均响应时间都小于10毫秒,TPU每秒可以处理280,000个推理(IPS),Pascal P40可以处理560,000。

谷歌指出,单张K80卡只能处理36,465个推理(IPS),只有TPU的1/13,10个毫秒只能完成1%事务(transactions)。我们不知道Tesla P4怎么样,与谷歌的TPU在同一类型的热封装中理论上说应该更强。因为P40与Tesla P4在8位整数浮点运算时候的性能旗鼓相当,所以我们就假设P4与P40在跑GoogLeNet时候的性能一样。

Tesla P40每秒可以处理259,750 推理(IPS),因为与谷歌TPU表现基本相同而做推论,也能将处理99%事务(transactions)的平均响应时间控制在10毫秒以内。如果谷歌TPU的内存转向GDDR5内存,无疑会增加成本,但是每秒可以处理的推理(IPS)能增加到840,000。私下里猜测,谷歌可能已经这么做了。

谷歌这么开发值不值?

第一个要问的问题是,谷歌为开发和制造TPU付出了多大成本。当然因为不用依靠CPU来做推理(inferencing)所以能节省了一大截成本。算一算成本,如果一块P4是2100美金,P40是4700美金,成本都比较高,所以谷歌必然考虑做自己的芯片,靠自研芯片节省的电费带来经济性,总体成本会低下来。

如果今年五月份的GPU大会上英伟达可能会发布新的GPU Volta,如果新的GPU能让机器学习推理的能力翻倍的话,后半年大范围供货后将成为很多HPC和AI用户的选择,此时英伟达的V4和V40就跟采用GDDR5的TPU站到同一阵营了,而且采用更高级的20纳米制程。

谷歌有钱,想买啥就能买啥,当想买的东西根本就没有的时候谷歌就会自己做,遵循的唯一原则就是降低TCO。

英伟达强调,GPU贡献性能的单位成本远低于TPU,为了证明在开发和部署环节的成本优势,英伟达还表示,市场上为AI开发的定制化的ASIC无一例外都非常昂贵,并且富有挑战性。英伟达明显加快了产品更新的节奏,因为创新的节奏太快了。

真正值得注意的问题,谷歌如何在锁定状态下调整其TensorFlow框架及TPU,从而挤出更多的性能。如果未来不能超越摩尔定律,那么它可能转向GPU,或者收购一家有趣的创业公司,这样做的话不会感到意外。如果谷歌未来展示更多TPU和TensorFlow技巧,我们也不用感到意外。

关键字:谷歌TPUGPU

本文摘自:doit网络

x 谷歌开发TPU到底值不值? 扫一扫
分享本文到朋友圈
当前位置:芯片市场动态 → 正文

谷歌开发TPU到底值不值?

责任编辑:editor006 作者:朱朋博 |来源:企业网D1Net  2017-04-24 16:01:47 本文摘自:doit网络

4月5日,谷歌的一篇博客提到TPU张量处理器, TPU最早是六年前开始出现的,随着需求的增多,发现有些设备还是太贵了,随着人工智能的发展,未来谷歌对人工智能的计算需求需要谷歌数据中心规模翻一番,规模翻倍不要紧,但不必要的成本压力谁都不想承担,为了解决这一问题,所以就有了TPU。

TPU是一种补充

张量处理器(TPU)的出现并不是为了取代做通用计算的CPU,或者是擅长图形计算的GPU,而是作为一种补充。谷歌只是觉得GPU的通用性太高了,所以有了TPU,未来还会买很多CPU和GPU。

尽管如此,但由于谷歌TPU论文引起的反响太大,感应到威胁的英伟达很快做出的回应,英伟达回应说,GPU在机器学习的推理(inferencing)方面相对于TPU有一些优势,还能用于机器学习中神经网络的训练。英伟达的GPU更通用一些,谷歌的TPU则比较专注于一个点。

英伟达回应对谷歌在论文中进行的对比的细节有些意见,黄仁勋表示GPU的通用性高一些, 先是肯定TPU在深度学习的张量处理领域有一些重合,随后通过一些细节来论证GPU相对于TPU的优势,这也算是不大不小的撕逼吧。

谷歌说:TPU相对于CPU,GPU的性能优势

如今,谷歌的许多产品都用到了TPU,比如谷歌图像搜索,谷歌照片,谷歌翻译,还有AlpheGo。最引人关注是在谈性能的部分,为了让大家感受TPU性能的优势,拿来做对比的自然少不了CPU和GPU。

 

谷歌生产环境的AI负载就有许多神经网络推理(inferencing)的部分,跑这一负载的时候,TPU比GPU和CPU快15倍至30倍;TPU比传统芯片能效更高,能达到30倍至80倍的提升;跑应用需要的代码只有100到1500行,该代码基于谷歌开源的机器学习框架TensorFlow。

与一颗18核的Haswell 至强E5-2699 v3或者一块英伟达Kepler GK210B相比,TPU对谷歌TensorFlow框架支持的更好。

虽然Haswell至强也支持8位整数运算,64位双精度和32位单精度浮点运算,但是在神经网络的环境下性能明显下降,至强处理器在整数模式下的吞吐量并不高,远不如TPU在浮点模式下的表现。

Kepler GK210B GPU不支持8位整数运算,只支持32位以及64位浮点模式,其在吞吐方面的表现与TPU对比也相形见绌:

 

上图TOPS一栏,在TensorFlow框架运行谷歌的推理(inferencing)工作负载的时候,Haswell E5能跑出2.6 TOPS,K80能跑出2.8 TOPS,TPU能跑出92 TOPS,是前者的三十多倍。

英伟达:对比的产品根本没有针对人工智能负载做优化

一般来说基准测试都有一定说服力的,但这次测试,有人表示Keplers落后于最新的Pascal架构CPU两代,谷歌的这个对比有失公允。英伟达加速计算副总裁表示,Kepler是2009年推出的针对传统HPC问题的GPU,K80设计的时候根本没考虑深度学习的问题。

随着GPU被用在机器学习领域,英伟达也在产品上不断做优化。2016年采用Pascal架构的Tesla P40刚推出的时候,TPU在深度学习方面的性能表现是K80的20倍。

2016年,英伟达推出了采用Pascal架构的P4和P40,除了支持半精度的16位浮点运算外,还支持8位整数运算,这个跟谷歌的TPU是一样的。

P4基于GP104芯片,有2560颗CUDA处理器,在运行推理(inferencing)工作负载的时候理论峰值性能达21.8 TOPS,峰值功耗为75瓦。P40基于GP102芯片,有3840颗CUDA核心,运行推理(inferencing)工作负载时的理论峰值性能为47 TOPS,功耗为250瓦。

谷歌在论文提到P40可以有47 TOPS推理(inferencing)性能,但没提到,99%的事务(transactions)平均响应时间控制在10毫秒,这一对于谷歌机器学习做推理(inferencing)负载时的重要参数。谷歌表示它的28纳米工艺TPU可以以700 GHz运行,主存储器内存从DDR换成了GPU常用的GDDR5,所有这一切只额外增加10瓦功耗。

英伟达新品的测试表现

可能因为不满英伟达对谷歌对TPU和GPU的对比结果,英伟达用开源的GoogLeNet卷积神经网络应用程序进行了一些测试,这改善了英伟达在推理(inferencing)工作负载中的表现:

 

图表中有一个有趣的细节,英伟达在表格中只显示了数MB的on-chip内存,而没显示数GB的on-card内存。

P40的GP102芯片有24 GB的GDDR5内存,K80的GK210B芯片有都12 GB的GDDR5内存,以及8 MB的on-chip内存。TPU有28 MB on-chip内存以及32 GB DDR3内存。GB的内存是用来存储深度学习模型的地方。

英伟达测出TPU最高性能是90 TOPS,谷歌测出的是92个TOPS,谷歌测出P40显卡在8位整数运算时候的最高性能为48 TOPS,英伟达测出的是47 TOPS。

运行GoogLeNet推理(inferencing)工作负载,一个重要的数据是,99%的事务(transactions)平均响应时间都小于10毫秒,TPU每秒可以处理280,000个推理(IPS),Pascal P40可以处理560,000。

谷歌指出,单张K80卡只能处理36,465个推理(IPS),只有TPU的1/13,10个毫秒只能完成1%事务(transactions)。我们不知道Tesla P4怎么样,与谷歌的TPU在同一类型的热封装中理论上说应该更强。因为P40与Tesla P4在8位整数浮点运算时候的性能旗鼓相当,所以我们就假设P4与P40在跑GoogLeNet时候的性能一样。

Tesla P40每秒可以处理259,750 推理(IPS),因为与谷歌TPU表现基本相同而做推论,也能将处理99%事务(transactions)的平均响应时间控制在10毫秒以内。如果谷歌TPU的内存转向GDDR5内存,无疑会增加成本,但是每秒可以处理的推理(IPS)能增加到840,000。私下里猜测,谷歌可能已经这么做了。

谷歌这么开发值不值?

第一个要问的问题是,谷歌为开发和制造TPU付出了多大成本。当然因为不用依靠CPU来做推理(inferencing)所以能节省了一大截成本。算一算成本,如果一块P4是2100美金,P40是4700美金,成本都比较高,所以谷歌必然考虑做自己的芯片,靠自研芯片节省的电费带来经济性,总体成本会低下来。

如果今年五月份的GPU大会上英伟达可能会发布新的GPU Volta,如果新的GPU能让机器学习推理的能力翻倍的话,后半年大范围供货后将成为很多HPC和AI用户的选择,此时英伟达的V4和V40就跟采用GDDR5的TPU站到同一阵营了,而且采用更高级的20纳米制程。

谷歌有钱,想买啥就能买啥,当想买的东西根本就没有的时候谷歌就会自己做,遵循的唯一原则就是降低TCO。

英伟达强调,GPU贡献性能的单位成本远低于TPU,为了证明在开发和部署环节的成本优势,英伟达还表示,市场上为AI开发的定制化的ASIC无一例外都非常昂贵,并且富有挑战性。英伟达明显加快了产品更新的节奏,因为创新的节奏太快了。

真正值得注意的问题,谷歌如何在锁定状态下调整其TensorFlow框架及TPU,从而挤出更多的性能。如果未来不能超越摩尔定律,那么它可能转向GPU,或者收购一家有趣的创业公司,这样做的话不会感到意外。如果谷歌未来展示更多TPU和TensorFlow技巧,我们也不用感到意外。

关键字:谷歌TPUGPU

本文摘自:doit网络

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^