当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 根据计算模式,人工智能核心计算芯片的发展分为两个方向:一个是利用人工神经网络从功能层面模仿大脑的能力,其主要产品就是通常的CPU、GPU、FPGA及专用定制芯片ASIC。另一个神经拟态计算则是从

根据计算模式,人工智能核心计算芯片的发展分为两个方向:一个是利用人工神经网络从功能层面模仿大脑的能力,其主要产品就是通常的CPUGPUFPGA及专用定制芯片ASIC。另一个神经拟态计算则是从结构层面去逼近大脑,其结构还可进一步分为两个层次,一是神经网络层面,与之相应的是神经拟态架构和处理器,如IBM的TrueNorth芯片,这种芯片把数字处理器当作神经元,把内存作为突触。与传统冯诺依曼结构不同,它的内存、CPU和通信部件完全集成在一起,因此信息的处理完全在本地进行,克服了传统计算机内存与CPU之间的瓶颈。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。二是神经元层面,与之相应的是元器件层面的创新。如IBM苏黎世研究中心宣布制造出世界上首个人造纳米尺度随机相变神经元,可实现高速无监督学习。

目前,AI芯片虽然在某些具体任务上可以大幅超越人的能力,但在通用性、适应性上相较于人类智能还有很大差距,大多数仍处于对特定算法的加速阶段。从短期来看,以异构计算(多种组合方式)为主来加速各类应用算法的落地(看重能效比、性价比、可靠性);从中期来看,要发展自重构、自学习、自适应的芯片来支持算法的演进和类人的自然智能;从长期来看,则是朝着通用AI芯片的方面发展。

“通用AI芯片”是AI芯片皇冠上的明珠。它最理想化的方式是淡化人工干预(如限定领域、设计模型、挑选训练样本、人工标注等)的通用智能芯片,必须具备可编程性、架构的动态可变性、高效的架构变换能力或自学习能力、高计算效率、高能量效率、应用开发简洁、低成本和体积小等特点。就目前而言,实现通用AI的主要直面两大挑战:一是通用性(算法和架构),二是实现的复杂度。通用AI芯片的复杂度来自于任务的多样性和对自学习、自适应能力的支持。因此,通用AI芯片的发展方向不会是一蹴而就地采用某一种芯片来解决问题,因为理论模型和算法尚未完善。最有效的方式是先用一个多种芯片设计思路组合的灵活的异构系统来支持,各取所长,取长补短。一旦架构成熟,就可以考虑设计SoC来在一个芯片上支持通用AI。

从短期来看,很难期待出现像CPU那样的AI通用算法芯片,AI杀手级应用还没出现,未来还有很长一段路要走。但必须承认的是,AI芯片是人工智能技术发展过程中不可逾越的关键阶段。无论哪种AI算法,最终的应用必然通过芯片来实现。目前,AI算法都有各自长处和短板,必须给它们设定一个合适的应用边界,才能最好地发挥它们的作用。因此,确定应用领域就成为了发展AI芯片的重要前提。

在应用方面,“无行业不AI”似乎正在成为主旋律,无论是人脸识别语音识别、机器翻译、视频监控,还是交通规划、无人驾驶、智能陪伴、舆情监控、智慧农业等,人工智能似乎涵盖了人类生产生活的方方面面。然而,是所有的应用都需要人工智能吗?我们希望人工智能解决哪些实际的问题?什么才是AI的“杀手级”应用?这些问题目前依然等待答案。但对于芯片从业者而言,当务之急是研究芯片架构问题。从感知、传输到处理,再到传输、执行,这是AI芯片的一个基本逻辑。研究者需要利用软件系统、处理器等去模仿。软件是实现智能的核心,芯片是支撑智能的基础。

从芯片发展的大趋势来看,目前尚处于AI芯片发展的初级阶段,无论是科研还是产业应用都有巨大的创新空间。从确定算法、领域的AI加速芯片向具备更高灵活性、适应性的智能芯片发展是科研发展的必然方向。神经拟态芯片技术和可重构计算芯片技术允许硬件架构和功能随软件变化而变化,实现以高能效比支持多种智能任务,在实现AI功能时具有独到的优势,具备广阔的前景。

虽然AI芯片目前还不是特别智能,但它们绝对很聪明,而且很有可能在不久的将来变得更加智能。这些芯片将继续利用半导体加工、计算机架构和SoC设计方面的先进技术,以提高处理能力,支持下一代AI算法。与此同时,新的AI芯片将继续需要先进的存储系统和片上互连架构,以便为新的专有硬件加速器提供深度学习所需的源源不断的数据流。相信,未来十年将是AI芯片发展的重要时期,有望在架构和设计理念取得巨大的突破。

具体到不同计算场景和不同计算需求,云端和终端芯片的架构设计趋势将朝不同的方向发展,而软件定义芯片已经成为灵活计算领域的主流。

一、云端训练和推断:大存储、高性能、可伸缩

虽然训练和推断在数据精度、架构灵活和实时性要求上有一定的差别,但它们在处理能力(吞吐率)、可伸缩可扩展能力以及功耗效率上具有类似的需求。

NVIDA的V100GPU和Google的CloudTPU是目前云端商用AI芯片的标杆。

(CloudTPU的机柜包括64个TPU2,能够为机器学习的训练任务提供11.5PFLOPS的处理能力和4TB的HBM存储器。这些运算资源还可以灵活地分配和伸缩,能够有效支持不同的应用需求。)

从NVIDA和Goolge的设计实践我们可以看出云端AI芯片在架构层面,技术发展呈现三大特点和趋势:

(1)存储的需求(容量和访问速度)越来越高。未来云端AI芯片会有越来越多的片上存储器(比如Graphcore公司就在芯片上实现的300MB的SRAM),以及能够提供高带宽的片外存储器(HBM2和其它新型封装形式)。

(2)处理能力推向每秒千万亿次(PetaFLOPS),并支持灵活伸缩和部署。对云端AI芯片来说,单芯片的处理能力可能会达到PetaFLOPS的水平。实现这一目标除了要依靠CMOS工艺的进步,也需要靠架构的创新。比如在Google第一代TPU中,使用了脉动阵列(SystolicArray)架构,而在NVIDA的V100GPU中,专门增加了张量核来处理矩阵运算。

(3)专门针对推断需求的FPGA和ASIC。推断和训练相比有其特殊性,更强调吞吐率、能效和实时性,未来在云端很可能会有专门针对推断的ASIC芯片(Google的第一代TPU也是很好的例子),提供更好的能耗效率并实现更低的延时。

二、边缘设备:把效率推向极致。

相对云端应用,边缘设备的应用需求和场景约束要复杂很多,针对不同的情况可能需要专门的架构设计。抛开需求的复杂性,目前的边缘设备主要是执行“推断”。衡量AI芯片实现效率的一个重要指标是能耗效率--TOPs/W,这也成为很多技术创新竞争的焦点。在ISSCC2018会议上,就出现了单比特能效达到772TOPs/W的惊人数据。

在提高推断效率和推断准确率允许范围内的各种方法中,降低推断的量化比特精度是最有效的方法。此外,提升基本运算单元(MAC)的效率可以结合一些数据结构转换来减少运算量,比如通过快速傅里叶变换(FFT)变换来减少矩阵运算中的乘法;还可以通过查表的方法来简化MAC的实现等。

另一个重要的方向是减少对存储器的访问,这也是缓解冯·诺伊曼“瓶颈”问题的基本方法。利用这样的稀疏性特性,再有就是拉近运算和存储的距离,比如把神经网络运算放在传感器或者存储器中。

三、软件定义芯片

对于复杂的AI任务,甚至需要将多种不同类型的AI算法组合在一起。即使是同一类型的AI算法,也会因为具体任务的计算精度、性能和能效等需求不同,具有不同计算参数。因此,AI芯片必须具备一个重要特性:能够实时动态改变功能,满足软件不断变化的计算需求,即“软件定义芯片”。

可重构计算技术允许硬件架构和功能随软件变化而变化,具备处理器的灵活性和专用集成电路的高性能和低功耗,是实现“软件定义芯片”的核心,被公认为是突破性的下一代集成电路技术。清华大学微电子所设计的AI芯片(代号Thinker),采用可重构计算架构,能够支持卷积神经网络、全连接神经网络和递归神经网络等多种AI算法。

Thinker芯片通过三个层面的可重构计算技术,来实现“软件定义芯片”,最高能量效率达到了5.09TOPS/W:

1。计算阵列重构:Thinker芯片每个计算单元可以根据算法所需要的基本算子不同而进行功能重构,支持计算阵列的按需资源划分以提高资源利用率和能量效率。

2。存储带宽重构:Thinker芯片的片上存储带宽能够根据AI算法的不同而进行重构。存储内的数据分布会随着带宽的改变而调整,以提高数据复用性和计算并行度,提高了计算吞吐和能量效率。

3。数据位宽重构:为了满足AI算法多样的精度需求,Thinker芯片的计算单元支持高低(16/8比特)两种数据位宽重构。高比特模式下计算精度提升,低比特模式下计算单元吞吐量提升进而提高性能。

采用可重构计算技术之后,软件定义的层面不仅仅局限于功能这一层面。算法的计算精度、性能和能效等都可以纳入软件定义的范畴。

四、新兴存储技术打开新思路

《白皮书》第六章主要介绍对AI芯片至关重要的存储技术,包括传统存储技术的改进和基于新兴非易失存储(NVM)的存储器解决方案。

可以预见的是,从器件到体系结构的全面创新或将赋予AI芯片更强的能力。近期,面向数字神经网络的加速器(GPU、FPGA和ASIC)迫切需要AI友好型存储器;中期,基于存内计算的神经网络可以为规避冯·诺依曼瓶颈问题提供有效的解决方案;最后,基于忆阻器的神经形态计算可以模拟人类的大脑,是AI芯片远期解决方案的候选之一。

1。AI友好型存储器

上图显示了新兴存储技术中带宽和容量的快速增长。新兴的NVM由于其相对较大的带宽和迅速增长的容量,可以在AI芯片的存储技术中发挥至关重要的作用。对于嵌入式应用,NVM的片上存储器也可以提供比传统NVM更好的存取速度和低功耗,可在非常有限的功率下工作,这对于物联网边缘设备上的AI芯片特别具有吸引力。

2。片外存储器

3D集成已经被证明是增加商业存储器的带宽和容量的有效策略,其可以通过使用从底部到顶部的硅通孔(TSV)技术,堆叠多个管芯或者单片制造的方法来完成。DRAM的代表作品包括HBM和混合存储器立方体(HMC)。

上图显示了NVIDA的GPU产品与HBM集成的AI应用程序。对于NAND闪存,3DNAND正在深入研究。最近,三星已经开发出96层3DNAND。

3。片上(嵌入型)存储器

由于能够连接逻辑和存储器电路,并且与逻辑器件完全兼容,SRAM是不可或缺的片上存储器,其性能和密度不断受益于CMOS的尺寸缩放。其易失性使得芯片上或芯片外的非易失性存储器成为必须。当前主要和新兴存储器的器件指标如下:

此外,自旋力矩传输存储器(STT-MRAM)由于其高耐久性和高速度被认为是DRAM的替代品。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭