人工智能芯片和传统芯片有何不同

责任编辑：zsheng |来源：企业网D1Net 2018-07-26 09:23:35 本文摘自：山西新闻网--山西日报

AI(人工智能)芯片需要具备高性能的并行计算能力，同时要能支持当前的各种人工神经网络算法。

传统CPU(中央处理器)由于计算能力弱，支撑深度学习的海量数据并行运算，且串行的内部结构设计架构为的是以软件编程的方式实现设定的功能，并不适合应用于人工神经网络算法的自主迭代运算。传统CPU架构往往需要数百甚至上千条指令才能完成一个神经元的处理，在AI芯片上可能只需要一条指令就能完成。

传统的CPU、GPU(图形处理器)都可以拿来执行AI算法，但是速度慢，性能低，无法实际商用。比如，自动驾驶需要识别道路行人红绿灯等状况，但是如果是当前的CPU去算，那么估计车翻到河里了还没发现前方是河。如果用GPU，的确速度要快得多，但是，功耗大，汽车的电池估计无法长时间支撑正常使用。

另外，GPU因为不是专门针对AI算法开发的ASIC(Application Specific Integrated Circuits，专用集成电路)，所以，说到底，速度还没到极限，还有提升空间。而类似智能驾驶这样的领域，必须快。在手机终端，可以自行人脸识别、语音识别等AI应用，这个必须功耗低，所以GPU的选择是不合理的。所以，开发ASIC就成了必然。

解读主流的人工智能芯片

人工智能的高级阶段是深度学习，而对于深度学习过程则可分为训练和推断两个环节：训练环节通常需要通过大量的数据输入或采取增强学习等非监督学习方法，训练出一个复杂的深度神经网络模型。

训练过程由于涉及海量的训练数据和复杂的深度神经网络结构，需要的计算规模非常庞大，通常需要GPU集群训练几天甚至数周的时间，在训练环节GPU目前暂时扮演着难以替代的角色。推断环节指利用训练好的模型，使用新的数据去“推断”出各种结论，如视频监控设备通过后台的深度神经网络模型，判断一张抓拍到的人脸是否属于黑名单。虽然推断环节的计算量相比训练环节少，但仍然涉及大量的矩阵运算。

Training(训练)和 Inference(推断)在目前大多数的AI系统中，是相对独立的过程，其对计算能力的要求也不尽相同。Training需要极高的计算性能，需要较高的精度，需要能处理海量的数据，需要有一定的通用性，以便完成各种各样的学习任务。

在推断环节，除了使用CPU或GPU进行运算外，FPGA以及ASIC均能发挥重大作用。目前，主流的人工智能芯片基本都是以GPU、FPGA、ASIC以及类脑芯片为主。

1.FPGA

即专用集成电路，一种集成大量基本门电路及存储器的芯片，可通过烧入FPGA配置文件来来定义这些门电路及存储器间的连线，从而实现特定的功能。而且烧入的内容是可配置的，通过配置特定的文件可将FPGA转变为不同的处理器，就如一块可重复刷写的白板一样。FPGA有低延迟的特点，非常适合在推断环节支撑海量的用户实时计算请求，如语音识别。

由于FPGA适合用于低延迟的流式计算密集型任务处理，意味着FPGA芯片做面向与海量用户高并发的云端推断，相比GPU具备更低计算延迟的优势，能够提供更佳的消费者体验。在这个领域，主流的厂商包括Intel、亚马逊、百度、微软和阿里云。

2.ASIC

即专用集成电路，不可配置的高度定制专用芯片。特点是需要大量的研发投入，如果不能保证出货量其单颗成本难以下降，而且芯片的功能一旦流片后则无更改余地，若市场深度学习方向一旦改变，ASIC前期投入将无法回收，意味着ASIC具有较大的市场风险。但ASIC作为专用芯片性能高于FPGA，如能实现高出货量，其单颗成本可做到远低于FPGA。

谷歌推出的TPU(Tensor Processing Unit即张量处理单元是一款为机器学习而定制的芯片)就是一款针对深度学习加速的ASIC芯片，而且TPU被安装到AlphaGo(阿尔法围棋)系统中。但谷歌推出的第一代TPU仅能用于推断，不可用于训练模型，但随着TPU2.0的发布，新一代TPU除了可以支持推断以外，还能高效支持训练环节的深度网络加速。根据谷歌披露的测试数据，谷歌在自身的深度学习翻译模型的实践中，如果在32块顶级GPU上并行训练，需要一整天的训练时间，而在TPU2.0上，八分之一个TPUPod(TPU集群，每64个TPU组成一个Pod)就能在6个小时内完成同样的训练任务。

3.GPU

即图形处理器。最初是用在个人电脑、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器，可以快速地处理图像上的每一个像素点。后来科学家发现，其海量数据并行运算的能力与深度学习需求不谋而合，因此，被最先引入深度学习。2011年吴恩达教授率先将其应用于谷歌大脑中便取得惊人效果，结果表明，12颗英伟达的GPU可以提供相当于2000颗CPU的深度学习性能，之后纽约大学、多伦多大学以及瑞士人工智能实验室的研究人员纷纷在GPU上加速其深度神经网络。

GPU之所以会被选为超算的硬件，是因为目前要求最高的计算问题正好非常适合并行执行。一个主要的例子就是深度学习，这是人工智能最先进的领域。深度学习以神经网络为基础。神经网络是巨大的网状结构，其中的节点连接非常复杂。训练一个神经网络学习，很像我们大脑在学习时，建立和增强神经元之间的联系。从计算的角度说，这个学习过程可以是并行的，因此它可以用GPU硬件来加速。这种机器学习需要的例子数量很多，同样也可以用并行计算来加速。在GPU上进行的神经网络训练能比CPU系统快许多倍。目前，全球70%的GPU芯片市场都被NVIDIA占据，包括谷歌、微软、亚马逊等巨头也通过购买NVIDIA的GPU产品扩大自己数据中心的AI计算能力。

4.类人脑芯片

类人脑芯片架构是一款模拟人脑的新型芯片编程架构，这种芯片的功能类似于大脑的神经突触，处理器类似于神经元，而其通讯系统类似于神经纤维，可以允许开发者为类人脑芯片设计应用程序。通过这种神经元网络系统，计算机可以感知、记忆和处理大量不同的情况。

现在业界争论的焦点是AI芯片的处理器架构用哪种是最好的，有前面提及的有GPU、FPGA、DSP和ASIC，甚至还有更前沿的脑神经形态芯片。现在普遍认为GPU处于优势地位，但其他几种的处理器架构也各有优势。

关键字：芯片智能