当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 在人工智能(AI)领域,由于具有先天技术和应用优势,英伟达和谷歌几乎占据了AI处理器领域80%的市场份额,其他厂商,如英特尔、特斯拉、ARM、IBM以及Cadence等,也在人工智能处理器领域占

在人工智能(AI)领域,由于具有先天技术和应用优势,英伟达和谷歌几乎占据了AI处理器领域80%的市场份额,其他厂商,如英特尔、特斯拉、ARM、IBM以及Cadence等,也在人工智能处理器领域占有一席之地。最近几年,我国国内也涌现出了一批AI芯片公司,如地平线、深鉴科技、中科寒武纪等。

从应用场景看,AI芯片主要有两类,一是部署在以数据中心为代表的云端,其特点是高性能,功耗随之也偏高;另一个是部署在消费级和物联网的终端,其最大特点就是低功耗。

目前,AI芯片的大规模应用场景主要还是在云端。在云端,互联网巨头已经成为了事实上的生态主导者,因为云计算本来就是巨头的战场,现在所有开源AI框架也都是这些巨头发布的。在这样一个生态已经固化的环境中,留给创业公司的空间实际已经消失。

而在终端上,由于还没有一统天下的事实标准,芯片厂商可以八仙过海各显神通。目前,AI芯片在终端的应用场景主要还是手机,各大手机处理器厂商都在打AI牌,生怕错过了热点。

而随着5G和物联网的成熟,广阔的市场空间,为终端侧的AI芯片应用提供了巨大的机遇,而由于物联网终端数量巨大,应用场景繁多,而所有终端几乎都有一个共同的需求和特点,那就是低功耗,从而使其能长时间的稳定工作,不需要人为干预和维护,以降低运营维护成本。

云端AI芯片已经被各大巨头把控,而终端侧又有着巨大的发展空间,这使得产学研各界的众多企业和科研机构在最近两年纷纷投入人力和财力,进行低功耗AI芯片的研发,以期在竞争中占得先机。

VLSI 2018上的中国风

前些天,在美国檀香山召开的2018 国际超大规模集成电路研讨会(2018 Symposia on VLSI Technology and Circuits,简称 VLSI)上,我国清华大学Thinker团队发表了两款极低功耗AI 芯片(Thinker-II 和 Thinker-S)的相关论文,以及一种支持多种稀疏度网络和线上可调节功能的人工神经网络处理器STICKER。

之所以推出以上3款AI芯片,主要基于以下行业背景和需求:深度学习的突破性发展带动了机器视觉、语音识别以及自然语言处理等领域的进步,然而,由于深度神经网络巨大的存储开销和计算需求,功耗成为 Deploy AI Everywhere 的主要障碍,人工智能算法在移动设备、可穿戴设备和 IoT 设备中的广泛应用受到了制约。

为克服上述瓶颈,清华大学 Thinker 团队对神经网络低位宽量化方法、计算架构和电路实现进行了系统研究,提出了支持低位宽网络高能效计算的可重构架构,设计了神经网络通用计算芯片Thinker-II和语音识别芯片Thinker-S。Thinker-II 芯片运行在 200MHz 时,其功耗仅为10mW;Thinker-S芯片的最低功耗为141微瓦,其峰值能效达到90TOPs/W。这两款芯片有望在电池供电设备和自供能IoT设备中广泛应用。

Thinker-S

Thinker-S中设计了一种基于二值卷积神经网络和用户自适应的语音识别框架,同时利用语音信号处理的特点,提出了时域数据复用、近似计算和权值规整化等优化技术,大幅度优化了神经网络推理计算。Thinker-S 芯片采用 28nm 工艺,单次推理计算中每个神经元上消耗的能量最低仅为 2.46 皮焦。

图:Thinker-S 芯片架构

Thinker-Ⅱ

该芯片中设计了两种二值/三值卷积优化计算方法及硬件架构,大幅降低了算法复杂度、有效去除了冗余计算。此外,针对由稀疏化带来的负载不均衡问题,设计了层次化均衡调度机制,通过软硬件协同的两级任务调度,有效提升了资源利用率。Thinker-II 芯片采用 28nm 工艺,通过架构和电路级重构,支持神经网络通用计算。

图:Thinker-II 芯片架构

STICKER神经网络加速器

通过动态配置人工智能芯片的运算和存储电路,实现了对不同稀疏度神经网络的自适应处理,大幅提升了人工智能加速芯片的能量效率。该论文作为人工智能处理器分会场的首篇论文,得到了本届VLSI技术委员会的高度认可,一同入选的论文还包含了IBM, Intel, Renesas等公司的相关工作。

图:STICKER神经网络加速器硬件架构

据悉,STICKER是世界首款全面支持不同稀疏程度网络,且同时支持片上网络参数微调的神经网络加速芯片。通过片上自适应编码器、多模态计算单元以及多组相连存储架构技术,实现了针对不同稀疏程度神经网络的动态高效处理,大幅提升能量效率,并减少芯片面积。针对传统神经网络加速器无法片上调整网络参数以适应物联网应用场景中目标及环境多变的问题,首次使用了片上微调稀疏神经网络参数的技术,以极低的开销实现片上神经网络参数的自适应调整。相比于传统加速器,该工作极限能效高达62.1 TOPS/W(为目前有报道的8bit人工智能处理器的最高值)。

图:Sticker芯片照片

KAIST的DNPU

韩国科学技术院KAIST的Dongjoo Shin等人在ISSCC 2017上提出了一个针对CNN和RNN结构可配置的加速器单元DNPU,除了包含一个RISC核之外,还包括了一个针对卷积层操作的计算阵列CP和一个针对全连接层RNN-LSTM操作的计算阵列FRP,DNPU支持CNN和RNN结构,能效比高达8.1TOPS/W。该芯片采用了65nm CMOS工艺。

ENVISION

比利时鲁汶大学的Bert Moons等在2017年IEEE ISSCC上提出了能效比高达10.0TOPs/W的、针对卷积神经网络加速的芯片ENVISION,该芯片采用28nm FD-SOI技术,包括一个16位的RISC处理器核,1D-SIMD处理单元进行ReLU和Pooling操作,2D-SIMD MAC阵列处理卷积层和全连接层的操作,还有128KB的片上存储器。

SCALLDEEP

普渡大学的Venkataramani S等人在计算机体系结构顶级会议ISCA 2017上提出了针对大规模神经网络训练的人工智能处理器SCALLDEEP。

该论文针对深度神经网络的训练部分进行针对性优化,提出了一个可扩展服务器架构,且深入分析了深度神经网络中卷积层,采样层,全连接层等在计算密集度和访存密集度方面的不同,设计了两种处理器core架构,计算密集型的任务放在了comHeavy核中,包含大量的2D乘法器和累加器部件,而对于访存密集型任务则放在了memHeavy核中,包含大量SPM存储器和tracker同步单元,既可以作为存储单元使用,又可以进行计算操作,包括ReLU,tanh等。

论文作者针对深度神经网络设计了编译器,完成网络映射和代码生成,同时设计了设计空间探索的模拟器平台,可以进行性能和功耗的评估,性能则得益于时钟精确级的模拟器,功耗评估则从DC中提取模块的网表级的参数模型。该芯片采用了Intel 14nm工艺进行了综合和性能评估,峰值能效比高达485.7GOPS/W。

Myriad X

英特尔为了加强在人工智能芯片领域的实力,收购了机器视觉公司Movidius。

Movidius在2017年推出了Myriad X,这是一款视觉处理器(VPU,visionprocessing unit),是一款低功耗的SoC,用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和VR / AR头盔。

Myriad X是全球第一个配备专用神经网络计算引擎的片上系统芯片(SoC),用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,Myriad X架构能够为基于深度学习的神经网络推理提供1TOPS的计算性能。

百花齐放

一些传统AI服务厂商将自己的服务进行垂直拓展,比如的自然语音处理厂商云知声从自己的传统语音业务出发,开发了UniOne语音AI芯片,用于物联网IoT设备。

相对于语音市场,安防更是一个AI芯片扎堆的大产业,如果可以将自己的芯片置入摄像头,是一个不错的场景,也是很好的生意。包括云天励飞、海康威视等厂商都在大力开发安防领域的AI嵌入式芯片,而且已经完成了一定的商业化部署。

AI芯片发展趋势

在计算机体系结构顶级会议ISSCC 2018,“Digital Systems: Digital Architectures and Systems”分论坛主席Byeong-GyuNam对AI芯片,特别是深度学习芯片的发展趋势做了概括,去年,大多数论文都在讨论卷积神经网络的实现问题,今年则更加关注两个问题:一,如果更高效地实现卷积神经网络,特别是针对手持终端等设备;二,关于全连接的非卷积神经网络,如RNN和LSTM。

为了获得更高的能效比,越来越多的研究者把精力放在了低精度神经网络的设计和实现上,如1bit的神经网络。这些新技术使深度学习加速器的能效比从去年的几十TOPS/W提升到了今年的上百TOPS/W。有些研究者也对数字+模拟的混合信号处理实现方案进行了研究。对数据存取具有较高要求的全连接网络,有些研究者则借助3D封装技术来获得更好的性能。

总之,AI芯片在终端侧的发展潜力巨大,且应用场景众多,品类也多,这就更适合众多初创的、中小规模AI芯片企业的胃口。相信随着5G和物联网的大面积铺开,低功耗AI芯片将是未来的主要发展方向,只要相关标准能够确定,则商机无限。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

文章设计了一种基于物联网技术的物流柜振动远程监控系统,可实时监控物品运输过程中的温湿度、方位角、加速度、振动功率谱等参数,并通过N8-410T接入物联网云端,可实时查询,并对可能发生的货物损坏做出预警

关键字: 物联网 Zigbee 数字信号处理器

近日,在浙江宁波举行的2024世界电信和信息社会日大会上,中国电信、中国移动、中国联通、中国广电联合宣布启动5G异网漫游商用推广。

关键字: 运营商 5G 异网漫游

5月17日消息,据“中国联通研究院”公众号介绍,日前,中国联通研究院、中国联通与华为在浦东金桥成功完成首个5G-A室外规模组网验证。

关键字: 中国联通 华为 5G

业内消息,日前美国移动、视频和人工智能技术公司InterDigital宣布,由于联想(包括摩托罗拉移动)侵犯其4G和5G设备专利,已获得德国慕尼黑地区法院对于联想的禁令。这也意味着联想支持4G/5G网络的设备(包含手机、...

关键字: 联想 4G 5G

5月16日,2024世界电信和信息社会日大会在浙江宁波召开,在第55个世界电信日即将来临之际,共同探讨以推动数字创新赋能新型工业化之路。OPPO作为AI终端厂商代表,受邀出席AI终端未来之路分论坛。OPPO AI技术战略...

关键字: AI 端云协同 大模型

国际货币基金组织(IMF)总裁克里斯塔利娜・格奥尔基耶娃(Kristalina Georgieva)日前表示,AI正在像“海啸”一样冲击着全球劳动力市场。

关键字: IMF AI 劳动力市场 GPT-4o

随着每家每户联网设备数量的不断增加,管理无线干扰(尤其是 2.4 GHz 频段)的挑战也随之而来。根据国际专业服务机构德勤(Deloitte)的数据,2022 年每个家庭的平均联网设备数量为 22 台,随着消费者在家中部...

关键字: Wi-Fi 智能家居 物联网

西门子 Xcelerator as a Service 解决方案将登录微软 Azure,以应对不断增长的客户需求。西门子的 Teamcenter X 产品生命周期管理软件将作为首个登录 Azure 的软件

关键字: AI 自然语言处理

最新消息,多位内部人士昨天透露:微软总部下发邮件,通知中国区负责 AI 研究的多个团队整体从中国搬离,涉及员工或达数百人。

关键字: 微软 AI

北京2024年5月13日 /美通社/ -- 5月10-11日,"EPAI种子计划"正式启航!首期"基于EPAI的大模型应用实践研讨会"在北京智谷大厦成功举行。浪潮信息携手二十家元脑...

关键字: 开发平台 模型 AI 研讨会
关闭
关闭