谷歌机器学习的云管道解析

责任编辑：editor004 作者：Harris编译 |来源：企业网D1Net 2017-06-26 10:48:40 本文摘自：机房360

当谷歌公司第一次向世界讲述它的张量处理单元（TPU）时，其背后的策略就显得很清楚了：通过在定制硬件上抛出问题来加速机器学习。使用商品GPU来训练机器学习模型;使用自定义TPU部署这些训练有素的模型。

谷歌公司新一代的TPU旨在在同一芯片上处理培训和部署这两项任务。新一代的TPU速度也更快，无论是哪家公司的产品都被称为“TPUpod”。

但是，更快的机器学习不是这种设计的唯一好处。特别是在这种新形式中，TPU促成了一件事，即谷歌公司构建端到端的机器学习流程，涵盖从数据采集到部署训练有素的模型的所有内容。

　　机器学习：一条管道贯穿其中

现在使用机器学习的最大障碍之一是如何为数据输入、标准化、模型培训、模型和部署建立一个完整的管道。这些碎片仍然高度不同和不协调的。像百度这样的公司已经暗示要创建一个统一的、开箱即用的解决方案，但到目前为止，这还只是一个概念。

出现这种解决方案的最有可能的地方是在云计算中。随着时间的推移，在默认情况下，为机器学习收集的更多数据（以及其他所有内容）都存在于此。因此，硬件需要从中产生可执行的结果。给人们一个端到端的云计算机器学习流程，在默认情况下只有几个旋钮，他们很乐意在其上面建立起来。

大多数情况下，谷歌公司的愿景是，尽可能靠近数据，管道的每个阶段都可以在云中执行，以达到最佳的速度。使用TPU，谷歌公司还致力于提供许多阶段，可根据需要进行定制硬件加速。

新的TPU旨在通过多种方式提高管道的加速度。一个加速来自多个TPU的组合。另一个来自于能够从相同的芯片上训练和部署模型。对于后者，随着新数据的出现，逐渐重新训练模型更加容易，因为数据不必一直被移动。

在加速运行的数据上的优化也符合其他机器学习性能的改进，如一些提议的Linux内核修复和用于机器学习数据访问的通用API。

但是企业愿意把自己锁定在开源深度学习平台TensorFlow中吗？

谷歌公司的愿景可能有一个缺点：TPU提供的性能提升只有在用户使用正确的机器学习框架时才有效。这意味着谷歌公司采用自己的TensorFlow。

这并不是说TensorFlow是一个不好的框架；事实上，这是很好的。但它只是一个多个框架，每个框架都适合不同的需求和用例。所以TPU限制支持只是TensorFlow意味着用户不得不使用它，无论其适合，如果用户希望从谷歌公司的ML云中获取最高性能。另一个框架可能更方便地用于特定作业，但是它可能不会快速地进行训练或预测，因为它将被委托仅在GPU上运行。

这也排除了谷歌可能推出其他硬件的可能性，如用户可编程的FPGA，以允许不直接由谷歌公司推出的框架也具有优势。

但是对于大多数人来说，使用TPU加速某些事情的不便之处远远超过了为机器学习工作提供管理的基于云计算的一体机管道的便利性。所以，无论喜欢与否，他们都会使用TensorFlow。

关键字：谷歌机器学习 TPU