人工智能下的TPU/NPU/CPU/GPU

时间：2016-07-25 12:08:22

关键字： CPU GPU npu 人工智能 tpu

[导读]人工智能将推动新一轮计算革命，深度学习需要海量数据并行运算，传统计算架构无法支撑深度学习的大规模并行计算需求。因此，深度学习需要更适应此类算法的新的底层硬件来加速计算过程。芯片也为响应人工智能和深度学

人工智能将推动新一轮计算革命，深度学习需要海量数据并行运算，传统计算架构无法支撑深度学习的大规模并行计算需求。因此，深度学习需要更适应此类算法的新的底层硬件来加速计算过程。

芯片也为响应人工智能和深度学习的需要，在速度和低能耗方面被提出了更高的要求，目前使用的 GPU、FPGA 均非人工智能定制芯片，天然存在局限性，除具有最明显的优势GPU外，也有不少典型人工智能专用芯片出现。

一、谷歌——TPU(Tensor Processing Unit)即谷歌的张量处理器

TPU是一款为机器学习而定制的芯片，经过了专门深度机器学习方面的训练，它有更高效能(每瓦计算能力)。大致上，相对于现在的处理器有7年的领先优势，宽容度更高，每秒在芯片中可以挤出更多的操作时间，使用更复杂和强大的机器学习模型，将之更快的部署，用户也会更加迅速地获得更智能的结果。

根据Google一位杰出硬件工程师Norm Jouppi在一篇部落格文章中的说法，该种加速器早在一年多前就运用于Google的数据中心：“TPU已经启动许多Google的应用，包括用以改善搜索引擎结果关联度的RankBrain，以及在街景服务(Street View)改善地图与导航的精确度与质量。”

谷歌专门为人工智能研发的TPU被疑将对GPU构成威胁。不过谷歌表示，其研发的TPU不会直接与英特尔或NVIDIA进行竞争。

二、中星微——中国首款嵌入式神经网络处理器(NPU)芯片

中星微在今年6月 20 日，率先推出中国首款嵌入式神经网络处理器(NPU)芯片，这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片，并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上，最高能达到98%的准确率，超过人眼的识别率。该芯片于今年3月6日实现量产，目前出货量为十几万件。

NPU采用了“数据驱动”并行计算的架构，单颗NPU(28nm)能耗仅为400mW，极大地提升了计算能力与功耗的比例，可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。

三、英特尔——非传统意义上的英特尔处理器(CPU)

英特尔公司开发的第二代Xeon Phi处理器完美契合了人工智能的需求。Xeon Phi并非传统意义上的英特尔处理器(CPU)，最新的Xeon Phi协处理器拥有多达72个内核，而且每个内核有两个用于提供更好的单核浮点运算性能的英特尔AVX-512 SIMD处理单元，所以这些处理器非常适合运行机器学习/深度学习工作任务。

四、人工智能风口下最受关注的还是要数GPU

GPU 因其并行计算优势最先被引入深度学习，全球可编程图形处理技术的领军企业英伟达借此已开始打造新的计算平台。目前，包括谷歌、Facebook、微软等科技巨头公司在内的人工智能领域研究的领先者，已经在使用英伟达所提供的专门应用于该领域研究的芯片产品。

Facebook的人工智能硬件平台Big Sur就是依托Nvidia的GPU而打造的。GPU在人工智能中的应用十分广泛，因为这种芯片上搭载的处理核心数量多于Intel生产的传统处理器，使得它们十分适用于AI软件所需要的海量计算。“Big Sur”的设计特点是易于维修的主板，它装有8个NVIDIA的Tesla M40。

(1)GPU对于人工智能领域的意义又是什么呢?英伟达(NVIDIA)制造的图形处理器(GPU)专门用于在个人电脑、工作站、游戏机和一些移动设备上进行图像运算工作，是显示卡的“心脏”。该公司正从一家显卡供应商转变为人工智能服务器供应商。

GPU在“深度学习”领域发挥着巨大的作用，因为GPU可以平行处理大量琐碎信息。深度学习所依赖的是神经系统网络——与人类大脑神经高度相似的网络——而这种网络出现的目的，就是要在高速的状态下分析海量的数据。例如，如果你想要教会这种网络如何识别出猫的模样，你就要给它提供无数多的猫的图片。而GPU擅长的正是海量数据的快速处理。

对于人工智能和深度学习来说，目前硬件加速主要靠使用图形处理单元(GPU)集群作为通用计算图形处理单元(GPGPU)。

与传统的通用处理器(GPP)相比，GPU的核心计算能力要多出几个数量级，也更容易进行并行计算。尤其是英伟达的CUDA，作为最主流的GPGPU编写平台，各个主要的深度学习工具均用其来进行GPU 加速。

(2)GPU有什么优势呢?GPU最明显的优势是更快的处理速度，相比于CPU，GPU的一大优势是高速度。国内最好的人工智能硬件研究项目“寒武纪”小组的最新研究结果表明，GPU能够提供平均 58.82X 倍于CPU的速度。GPU的另一大优势，是它对能源的需求远远低于CPU。

最新款的专门用于人工智能研究领域的Tesla P100图形处理芯片，号称公司为这款GPU的研发投入了20亿美元。它可以执行深度学习神经网络任务，速度是英伟达之前高端系统的12倍，预计新产品将会极大推动机器学习的极限。

黄仁勋在4月初的发布会上表示，未来10年，人工智能市场总值约为5000亿美元。他表示，深度学习令我们的业绩加速增长。这是一种全新的计算模式，利用GPU的大规模处理能力来学习人工智能算法。它的普及正在席卷一个又一个行业，推动我们的图形处理器市场需求不断增长。