清华大学发布《AI芯片技术白皮书》：边缘计算崛起，云+端创新架构设计

时间：2020-06-18 11:12:01

关键字： ai芯片 google NVIDIA 寒武纪

[导读] 本文来自新智元微信号，《AI芯片技术白皮书》为清华大学——北京未来芯片技术高精尖创新中心共同发布。无芯片，不 AI 近些年随着大数据的积聚、理论算法的革新、计算能力的提升

本文来自新智元微信号，《AI芯片技术白皮书》为清华大学——北京未来芯片技术高精尖创新中心共同发布。

无芯片，不 AI

近些年随着大数据的积聚、理论算法的革新、计算能力的提升及网络设施的发展，使得持续积累了半个多世纪的人工智能产业，又一次迎来革命性的进步，人工智能的研究和应用进入全新的发展阶段。

实际上，人工智能产业得以快速发展，都离不开目前唯一的物理基础——芯片。可以说，“无芯片不 AI”。

为了更好地厘清当前AI芯片领域的发展态势，进一步明确AI芯片在新技术形势下的路线框架、关键环节及应用前景，清华大学——北京未来芯片技术高精尖创新中心，根据学术界和工业界的最新实践，邀请国内外AI芯片领域的顶尖研究力量，共同发布了《人工智能芯片技术白皮书》。

下图为编委会成员名单，大家感受一下：

白皮书主要阐述和讨论了以下内容：

1、AI芯片产业的战略意义

2、AI芯片的技术背景背景

3、近几年AI芯片在云侧、边缘和终端设备等不同场景中的发展

4、面临的架构挑战，分析技术趋势

5、建立在当前技术集成上的云端和终端AI芯片架构创新

6、存储技术解决方案

7、前沿研究工作和新技术趋势

8、介绍神经形态计算技术，分析该技术面临的机遇和挑战

9、AI芯片的基准测试和技术路线图

10、展望AI芯片的未来

AI芯片的技术背景

不同的应用场景，不同的精度需求

AI系统通常涉及训练（Training）和推断（Inference）过程。

训练过程对计算精度、计算量、内存数量、访问内存的带宽和内存管理方法的要求都非常高。

而对于推断，更注重速度、能效、安全和硬件成本，模型的准确度和数据精度则可酌情降低。

人工智能工作负载多是数据密集型，需要大量的存储和各层次存储器间的数据搬移，导致“内存墙”问题非常突出。

为了弥补计算单元和存储器之间的差距，学术界和工业界正在两个方向上进行探索：

1、富内存的处理单元。增加片上存储器的容量并使其更靠近计算单元

2、创建具备计算能力的新型存储器算（Process-in-Memory PIM），直接在存储器内部（或更近）实现计算

低精度、可重构的芯片设计是趋势

低精度设计是AI芯片的一个趋势，在针对推断的芯片中更加明显。

同时，针对特定领域（即：具有类似需求的多种应用），而非特定应用的可重构能力的AI芯片，将是未来AI芯片设计的一个指导原则。

另一方面，AI算法开发框架，如TensorFlow和PyTorch等，在AI应用研发中正在起到至关重要的作用。

通过软件工具，构建一个集成化的流程，将AI模型的开发和训练、硬件无关和硬件相关的代码优化、自动化指令翻译等功能无缝的结合在一起，将是成功部署的关键要求。

发展现状

2015年开始，AI芯片的相关研发逐渐成为学术界和工业界研发的热点。到目前为止，在云端和终端已经有很多专门为AI应用设计的芯片和硬件系统。

云端芯片：大厂和初创公司都看好；FPGA正在逐渐崛起

GPU，特别是NVIDIA系列GPU芯片，被广泛应用于深度神经网络训练和推理。

很多公司开始尝试设计专用芯片，以达到更高的效率，其中最著名的例子是 Google TPU。

Google最近还通过云服务，把TPU开放商用，处理能力达到180 TFLOP，提供64GB的高带宽内存（HBM），2400GB/s的存储带宽。

不光芯片巨头，很多初创公司也看准了云端芯片市场。如Graphcore、Cerebras、Wave Computing、寒武纪及比特大陆等也加入了竞争的行列。

此外，FPGA也逐渐在应用中占有一席之地。目前FPGA 的主要厂商如 Xilinx、Intel都推出了专门针对AI应用的FPGA硬件。

主要的云服务厂商，比如亚马逊、微软及阿里云等也推出了专门的云端FPGA实例来支持AI应用。

一些初创公司，比如深鉴科技等也在开发专门支持FPGA的AI开发工具。

边缘计算让传统终端设备焕发青春

随着人工智能应用生态的爆发，越来越多的AI应用开始在端设备上开发和部署。

智能手机是目前应用最为广泛的边缘计算设备。手机大厂如苹果、华为、高通、联发科和三星在内的手机芯片厂商纷纷推出，或者正在研发专门适应AI应用的芯片产品。

而这个新兴的领域，也为初创公司提供了生存的土壤，地平线机器人、寒武纪、深鉴科技、元鼎音讯等，均致力于制造芯片和系统解决方案。

而一些传统的IP厂商，包括ARM、Synopsys等公司也都为包括手机、智能摄像头、无人机、工业和服务机器人、智能音箱以及各种物联网设备等边缘计算设备，开发专用IP产品。

自动驾驶也是未来边缘AI计算的最重要应用之一。

云+端相互配合，优势互补

总的来说，云侧AI处理主要强调精度、处理能力、内存容量和带宽，同时追求低延时和低功耗；边缘设备中的AI处理则主要关注功耗、响应时间、体积、成本和隐私安全等问题。

目前云和边缘设备在各种AI应用中往往是配合工作。最普遍的方式是在云端训练神经网络，然后在云端（由边缘设备采集数据）或者边缘设备进行推断。

AI芯片的技术挑战和设计趋势

但是物理设备的功能，都有一个极限。这个极限限制了硬件设备，面对不断增加的旺盛需求，形成阻碍。

AI芯片所面临的两个技术挑战及解决思路

1、冯·诺伊曼瓶颈：内存之墙。解决思路包括减少访问存储器的数量，降低访问存储器的代价

2、CMOS工艺和器件瓶颈。可以通过开发提供大量存储空间的片上存储器技术，并探索利用片上存储器去构建未来的智能芯片架构

AI芯片架构设计趋势

云端训练和推断的设计趋势：大存储、高性能、可伸缩。从NVIDIA和Goolge的设计实践，我们总结出技术发展的几个特点和趋势：

1、存储的需求（容量和访问速度）越来越高。

2、处理能力推向每秒千万亿次（PetaFLOPS），并支持灵活伸缩和部署。

3、专门针对推断需求的 FPGA 和 ASIC

边缘设备的设计趋势：把效率推向极致。相对云端应用，边缘设备的应用需求和场景约束要复杂很多，针对不同的情况可能需要专门的架构设计。

抛开需求的复杂性，目前的边缘设备主要是执行“推断”。在提高推断效率和推断准确率允许范围内的各种方法中，降低推断的量化比特精度是最有效的方法。

软件定义芯片。在 AI 计算中，芯片是承载计算功能的基础部件，软件是实现 AI 的核心。

AI 芯片必须具备一个重要特性：能够实时动态改变功能，满足软件不断变化的计算需求，即“软件定义芯片”。

可重构计算技术允许硬件架构和功能随软件变化而变化，具备处理器的灵活性和专用集成电路的高性能和低功耗，是实现“软件定义芯片”的核心。

Thinker芯片采用了下面3个层面的技术。

1、计算阵列重构

2、存储带宽重构

3、数据位宽重构

AI芯片中的存储技术和新兴计算技术

传统AI芯片的存储技术需要解决的问题

近期，面向数字神经网络的加速器（GPU、FPGA和ASIC）迫切需要AI友好型存储器。

中期，基于存内计算的神经网络可以为规避冯·诺依曼瓶颈问题提供有效的解决方案。

后期，基于忆阻器的神经形态计算可以模拟人类的大脑，是AI芯片远期解决方案的候选之一。

解决存储瓶颈的新兴计算技术

主要的新计算技术包括近内存计算、存内计算，以及基于新型存储器的人工神经网络和生物神经网络。

虽然成熟的 CMOS 器件已被用于实现这些新的计算范例，但是新兴器件有望在未来进一步显著提高系统性能并降低电路复杂性。

神经形态芯片：即“仿生电脑”

神经形态芯片（Neuromorphic chip）采用电子技术模拟，已经被证明了的生物脑的运作规则，从而构建类似于生物脑的电子芯片，即“仿生电脑”。

神经形态芯片具有如下特性：

1、可缩放、高并行的神经网络互联

2、众核结构

3、事件驱动

4、数据流计算

近些年，神经形态计算也用来指采用模拟、数字、数模混合VLSI以及软件系统实现的神经系统模型。

受到脑结构研究的成果启发，研制出的神经形态芯片具有低功耗、低延迟、高速处理、时空联合等特点。

展望未来

人工智能芯片还处在它的“婴儿期”，未来充满了不确定性。如果能有统一的终极算法出现，那么我们很可能会看到一个终极芯片出现。

AI芯片是整个人工智能技术发展的基础，也将是推动整个半导体领域技术进步的最重要的力量之一。

随着人工智能和物联网的持续快速发展，越来越多的应用需求和应用场景将不断涌现。

需求驱动的AI芯片技术创新将促进创新链与产业链更加紧密结合，推动开放合作、共享共赢的产业生态形成。

CMOS技术与新兴信息技术的交叉融合，开源软件到开源硬件的潮流渐显，预示着我们将迎来一个前所未有的协同创新机遇期！