当前位置:首页 > 芯闻号 > 充电吧
[导读]AI正在迅速发展,对芯片算力和内存的要求也越来越高,但摩尔定律的放缓甚至失效让芯片靠先进半导体工艺来提高芯片的性能和能效难度越来越大。此时,无论是在芯片市场耕耘多年的芯片霸主还是科技巨头都纷纷研发AI

AI正在迅速发展,对芯片算力和内存的要求也越来越高,但摩尔定律的放缓甚至失效让芯片靠先进半导体工艺来提高芯片的性能和能效难度越来越大。此时,无论是在芯片市场耕耘多年的芯片霸主还是科技巨头都纷纷研发AI芯片,新的芯片类型和技术也开始涌现。那么,eFPGA这种嵌入式的FPGA技术将如何推动AI的发展?7nm eFPGA的设计又将如何被AI的发展影响?

AI加速发展与摩尔定律放缓

AI的快速发展让智能语音助理几乎成了手机的标配,也让智能音箱的出货量连年上涨。于此同时,越来越多的手机正在使用AI技术优化拍照的效果以及对相册的照片进行分类。不过这些只是AI技术现阶段一些常见的应用,AI算法的不断演变正在让AI与更多的行业和应用结合,新的AI算法无论对芯片的算力还是内存等都提出了更高的要求,所有的AI芯片公司都在追求性能更高、功耗更低、面积更小的芯片。

回看芯片性能提升的历程,在1986年到2003年之间,芯片性能和功耗持续降低,到了2003年之后,凭借着多核的设计以及半导体工艺的进步芯片的性能依旧在提升,但摩尔定律显然已经放缓。2015年之后,芯片的提升越来越难,关于摩尔定律失效的讨论越来越多。

摩尔定律减缓

因此,CPU、GPU、FPGA、ASIC性能的提升和功耗降低都面临越来越大的挑战,另外,从16nm到7nm节点,芯片制造成本也在大幅提升。对于运算速度、数据传输、内存带宽都有较高要求的AI芯片,如何才能实现每瓦更高的性能以及更低的成本?

AI如何改变eFPGA的架构设计?

对于AI芯片,越来越多的芯片设计公司正在使用多核异构的架构来提升芯片的效率,满足深度学习算法的需求。除了多核异构的架构,具体的核的架构也都在不断针对AI优化,FPGA也不例外。值得注意的是,成立于2004年总部位于美国的Achronix提供的是嵌入式FPGA技术。Achronix的Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA(eFPGA),作为可配置的协处理器和硬件加速器来支持各种各样的任务,其比特位导向(bit-oriented)FPGA架构,比字段导向(word-oriented)的CPU架构更为高效,适用于SQL卸载、在线I/O处理、加密、搜索引擎算法性加速和增强多媒体处理等功能。

据了解,Achronix是唯一一家交付的eFPGA技术已经嵌入到ASIC中实现量产的公司,Speedcore IP适用的工艺节点包括TSMC 16nm FF+和英特尔的14nm FinFET,并已宣布将于2019年上半年开始提供适用于台积电7nm工艺的第四代Speedcore eFPGA IP。

Achronix市场营销副总裁Steve Mensor

除了支持最先进的制造工艺,7nm的eFPGA也进行了架构上的优化,其中非常关键的就是将机器学习处理器(MLP)增加到Speedcore可提供的资源逻辑库单元模块中。Achronix市场营销副总裁Steve Mensor表示:“MLP模块是一种高度灵活的计算引擎,它与存储器紧密耦合,利用了人工智能及机器学习处理的特定属性,将这些应用的性能提高了300%。可以同时提高每个时钟周期的性能和操作次数,一个MLP在1个时钟周期可以完成1个16×16的运算,8个8×8的运算,12个6×6的运算,16个4×4的运算。”

数据类型的支持对机器学习也非常重要,据悉MLP支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点,也就是说可以根据应用选择最佳精度来实现精度和性能的均衡。至于在支持的数据类型的支持上是否会有所偏重的问题,Steve告诉他们的eFPGA支持所有的数据类型,这也是FPGA可编程行的好处。

虽然能够支持所有的数据类型,但数据的存取耗能比计算耗能更多是所有AI芯片都不得不面对的问题。对此,Steve表示:“每个MLP包括一个循环寄存器文件(Cyclical Register File),用来存储重用的权重或数据,无需经过LUT,提升处理性能的同时还能降低功耗。”

另外,对于对机器学习计算密度比较高的应用,如果MLP还不能够满足希求,Speedcore Gen4查找表(LUT)可作为补充,可实现比独立FPGA高两倍的乘法器。

不仅仅是机器学习性能,Steve还表示:“我们的7nm eFPGA的逻辑单元、走线、路由架构、内存都进行了改进。”具体来说,查找表进行了全面的增强,更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接,缩减面积和功耗并提高性能。另外,路由架构借由一种独立的专用总线路由结构得到了增强,该路由结构中有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络,并且在业界首次实现了将网络优化应用于FPGA互连。

经过芯片架构的优化设计以及在7nm工艺的加持下,Speedcore Gen4性能提高了60%、机器学习性能提升300%、功耗降低50%、芯片面积减少65%。

Speedcore Gen4 FPGA提升

同时推7nm eFPGA IP和独立FPGA只为AI应用

AI对eFPGA不止于架构方面的改变,Steve表示采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,并将在2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。

注意到,在7nm节点Achronix不仅提供eFPGA IP,还提供FPGA裸片可与SoC进行封装,并且还会推出独立的FPGA器件。至于提供IP为主的Achronix为什么要在7nm节点推出独立FPGA,Steve表示:“这更多的是基于用户需求的考虑。在AI的应用中,数据中心的加速、5G、自动驾驶都有不同的需求。独立的FPGA更够让他们能够更快的应用在数据中心,实现加速,也能更好地满足对7nm FPGA芯片用量更小的公司的需求。那些对芯片成本和面积更加敏感,或者想设计出性能更高的AI芯片的公司,则可以选择IP。当然SoC公司也可以选择合适的封装技术将我们的裸片与他们的SoC进行封装,实现更高的性能。”

Achronix 亚太区总经理罗炜亮

当然,硬件是根本,软件也将在AI中发挥着越来越重要的作用,许多芯片设计公司在AI时代也开始更多地与软件公司进行合作,但在发布会上除了Achronix的ACE设计工具,并没有其他针对AI的软件。Steve对此表示:“我们作为一家正在快速发展但规模还不够大的公司,目前我们主要是在硬件层面提供稳定且性价比高的不同的芯片,我们最高会做到Libiary层,软件方面则更多地与合作伙伴协作。”

高成本下谁需要7nm eFPGA?

至此,我们已经了解到,无论从架构设计还是需求角度,eFPGA都进行了优化,但还有一个非常关键的问题就是16nm到7nm制程带来的性能、功耗的提升在成本面前似乎吸引力不足。虽然Steve表示芯片设计公司购买7nm eFPGA IP的价格与16nm eFPGA IP的价格相比没有上涨,但是制造成本的陡增还是会让许多芯片设计公司望而却步。

Steve表示,7nm eFPGA主要的市场包括对计算性能和价格有要求的数据中心加速、对低功耗计算有要求的边缘计算、有低功耗和低成本要求的存储器、低功耗高性能并且需要有可编程性的5G基础设施、网络加速/智能网卡、自动驾驶。

7nm eFPGA市场

不过,其中一些应用是潜在市场,另外一些则是驱动Achronix推出7nm eFPGA的关键。Steve指出:“目前我们公司营收最重要的两个应用是5G基础设施和智能卡(SmartIC),5G对芯片有高性能和低功耗的要求,因此很多以前用FPGA的公司现在转到了ASIC,但还需要一些灵活性以应对协议的改变。智能卡则是在数据传输前就进行一些数据的处理,我们知道数据量以及数据的复杂程度都在增加,因此这两个场景对7nm eFGPA都有很大的需求。数据中心以及自动驾驶、存储都需求明确,至于边缘计算最合适的场景则需要看市场的发展。”

还值得一提的是,为了能够加速数据中心和汽车等应用中机器学习工作负载,Achronix将其eFPGA与Micron的GDDR6存储器相结合,第四代eFPGA中有8个增强的GDDR6存储器接口,通过这种联合解决方案,可以应对深度神经网络中包括存储大数据集、重权重参数和存储器激活;底层硬件需要在处理器和存储器之间存储、处理和快速移动数据等挑战。

小结

AI算法还在不断的迭代和发展,因此通用性更强的CPU、GPU虽然能够完成相应的算法,但是效率越来越低,成本也越来越高,这推动了芯片架构的革新。我们看到越来越多的AI芯片采用多核异构,通过不同的核心组合提升性能和效率,更好地满足AI的需求。

从Achronix eFPGA的改进中我们也看到了其在逻辑单元、走线、路由架构方面都进行了改进,并且增加了MLP,为减少数据搬运的耗能,还搭载了片上存储,同时为了解决深度学习的固有问题,率先在FPGA中支持GDDR6。

AI应用与AI芯片就是在这样的相互影响下推动AI向前发展。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

目前,深度神经网络技术已经成为人工智能领域的代表性算法,基于深度神经网络技术的字符识别、图像分类或语音识别等关键技术,已经广泛应用于搜索引擎和智能手机等产品中。

关键字: 华为 卷积运算 ai芯片

2015年,芯片设计公司数量为736家,一年后,几乎翻了一倍成为1362家。其中,AI芯片最为耀眼。经过几年的探索和沉淀,AI的发展也许已经悄然进入2.0阶段。

关键字: ai芯片 云端 终端

芯片作为未来智能汽车的大脑,直接影响智能座舱和自动驾驶,自然也成为智能汽车时代的必争之地。智能汽车面对非常复杂的环境,感知、融合、决策需要巨大的计算能力,而传统的通用计算平台的算力功耗比TOPS/W居高不下,而且算力的利...

关键字: ai芯片 地平线 特斯拉

作为“第三生活空间”的未来车辆,使用场景必将更加丰富。而车辆内外部需要交互才能实现的各种功能,这必然意味着大量的数据和智能运算,而芯片将是汽车核心技术生态循环的基石。

关键字: 汽车 ai芯片 智能

9月28日,格兰仕在顺德总部宣布明年初将流片AI芯片,其合作伙伴赛昉科技同时发布了基于RISC-V开源架构的人工智能视觉处理平台,并与多家企业联手建立了“中国芯”开源芯片生态合作联盟。格兰仕与惠而浦有接近20年的战略合作...

关键字: 格兰仕 ai芯片 家电

随着5G时代到来以及AI技术的兴起,智能化成为了传统车企转型升级的目标和需求导向,自动驾驶在众多汽车应用场景中广受关注,在对AI芯片提出更高挑战的同时,也增加了AI芯片的需求。在自动驾驶领域,目前全球已有英伟达、英特尔等...

关键字: ai芯片 自动驾驶 国产

人工智能是第四代工业革命的核心科技,是国家推进‘新基建’重点建设的新型基础设施,百度建设的AI基础设施正是百度大脑,能够让各行各业更高效、更全面、更深入地应用人工智能技术,加快产业智能化进程。

关键字: 人工智能 ai芯片 百度

8月20日,“启明920”由清华大学交叉信息研究院马恺声教授领衔的西安交叉核心院芯片中心研发成功并完成测试,这在我国芯片领域具有重大意义。而在9月15日,2020西安全球硬科技创新大会分论坛——“下一代AI芯片产业发布暨...

关键字: ai芯片 自动驾驶 国产

[]随着人们越来越关注低延迟、数据隐私以及低成本、超节能的人工智能芯片组的可用性,edge人工智能(AI)芯片组市场有望在2025年首次超过云AI芯片组市场。 根据全球科技市场咨询公司ABI Res

关键字: ai芯片 edge 云计算 人工智能

  据外媒(cnbc)报道,一家生产AI芯片的创企Graphcore筹集了3000万美元资金。这些资金将帮助它在未来芯片领域同传统豪强英特尔和英伟达展开竞争。   这家英国公司计划明年大

关键字: ai芯片 无人驾驶 机器学习
关闭
关闭