当前位置:首页 > 原创 > 刘岩轩
[导读]近日燧原科技发布新一代“邃思”AI推理芯片,采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。

近日燧原科技发布了其最新的“邃思”AI推理芯片及其推理卡云燧i20,这是其推理产品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。

另外一个重要意义在于,第二代推理产品的面市意味着燧原科技已经实现了推理+训练的第二代产品组合的全面迭代,这是AI国产自研架构芯片稳步有序迈进的体现。

在燧原科技“芯怀天地”新品发布会上,燧原科技CEO赵立东和COO张亚林针对推理训练产品及其最新技术进行了精彩的分享。


AI市场新趋势:推理产品比例变高


人工智能分为训练和推理两个主要的任务,训练是指创建机器学习算法的过程,训练的比例和整个数据科学家的生产力直接相关,需要大量的计算资源来部署学习框架和训练数据集。而推理指的是使用经过训练的算法来进行预测,因此跟整个用户和海量的应用直接相关,与用户和用户所持应用的数量乘积成直接正比例的关系。

上图是从2017到2023年AI市场的走势,可以看到推理在整个AI市场中占的比例在逐渐增大,推理的实际应用场景也变得多元化,AI的业务从传统单一的机器视觉、声音、文字、决策、推荐等方向性的算法,逐步变成多场景、多应用的落地,广泛分布在用户日常生活中。结合推理的客户需求场景,这样的计算密集型应用对于性价比的考量也会更为敏感。所以除了GPU之外的其他更具性价比的方案,有望在这部分实现突围。针对这样的趋势,AI芯片公司譬如燧原科技早也在推理产品上进行了投入和布局。

在去年12月,燧原科技就发布了其首款神经网络模型推理引擎“鉴算TopsInference”及其“云燧i10”推理卡。通过鉴算TopsInference的推理加速,配合云燧i10的高算力及虚拟化技术,可以对计算密集型深度学习工作负载提供高性价比的部署方案。到了今年12月刚好一年的时间,燧原科技随即发布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20。这也意味着其推理产品也进入了有序的迭代节奏中,同时也是对于当前AI市场推理产品旺盛需求的及时产品补充。


DTU2.5 :国内首颗TF23推理芯片


“邃思2.5”采用的是专门为云端推理场景而自主研发的计算架构,燧原在这颗芯片上,针对场景落地需求、包括性价比和能效比都有着严苛的设计要求。

据张亚东介绍,“邃思”推理芯片采用具备全AI算力空间的计算架构,具备32位的算力,从FP32一直到INT8,包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间,满足各种各样推理的客户需求。单精度FP32达到了32 TFLOPS、单精度张量TF32达到了128 TFLOPS;同样具备半精度BF16/FP16的算力,达到128 TFLOPS。在最重要的推理方面,整数精度INT8也有了提升,达到256TOPS。

据悉,这是中国第一颗具备TF32张量单精度的推理芯片,能用16位的算力达到32位的精度,实现4倍于FP32的算力,同时保持99%的整个模型精度一致性。

数据架构方面采用了完全自研的 (Sparse Value Segment ) 数据压缩格式,能够进行独立的分层压缩和硬件自动循环解压,使得所有的数据(特别是稀疏数据)在传输过程带宽和功耗减少。同时支持硬件指令预取的操作,使得指令的预取、数据的传输和计算可以同时进行,进行并行的数据广播,使得同样的数据可以广播到多个处理器上进行并行执行。同时,这种数据压缩格式还具有很强的动态功耗控制,让整个数据传输的动态功耗变得非常的有效。

内存方面是采用两颗HBM2E,单芯片容量为16GB,最大带宽达到819GB/s。封装形式采用了2.5D的封装,整合了5颗芯片进去,尺寸为55mmX55mm。

除了能效比、性价比这些关键因素之外,用户的实际部署易用性也是非常重要的考量。针对当前爆炸式增长的多样化的推理落地场景,燧原科技进一步加强推理软件栈,使其更加泛化易用,满足更多客户日益增长的需求。


超越主流GPU的性价比之选


搭载2.5代DTU的推理加速卡云燧i20,纵向上实现了比前代产品的大幅提升,横向上对比GPU的方案也有更好的性价比。

相比云燧i10,云燧i20的浮点32位的算力从17.6T提升到32T,浮点16位的算力从70.4T提升到了128T,INT8整点8位的算力从70.4T提升到了256T,HBM2升级到HBM2E后相应的带宽也从512GB提升了819GB,连接方式和功耗表现上与前代保持一致。

如下图所示,根据燧原科技提供的和某次旗舰GPU加速卡的对比数据,以该次旗舰GPU的参数为基准,i20的浮点16位的算力是其2倍,INT8的算力是2倍,内存带宽是2.65倍。

据张亚东介绍,在DTU2.5设计最初,燧原就定了其性能目标——至少达到主流GPU次旗舰的2.5倍以上,最高达到3.5倍。在这样的设计目标驱动下,搭载DTU2.5出来i20的实际效果也确实是精准地完成了这一目标。

在实时性方面,DTU相比GPU也有非常出色的表现,根据燧原科技展示的一个实时语意分析的对比demo展示,DTU的实时性能(吞吐量)是GPU的2.5倍以上,而实时的延时DTU却只有GPU的一半不到。在这种典型的NLP——bert应用中,DTU展现了至少2.5倍于GPU的性能。


“训推一体化”产品组合升级到第二代


此次全新二代云端推理产品的推出,使得燧原构建了T20+i20的第二代训推产品组合。但仅仅有产品是不够的,燧原科技还同步将训推一体化的系统进行了增强,使得用户可以方便使用T20和i20,完成训练加推理一体化的部署。

据张亚东介绍,在TopsRider软件系统里,从高层的图优化到中间的算子库再到中间的编程模型,最后到底层的Runtime,四个阶段中分别都实现了整个训练和推理引擎的统一,使得用一套结构可以支持所有训练和推理软件栈。这样统一的表达、统一的训练推理的算子编程模型、统一的Runtime,让T20+i20在训练和推理栈上进行了很好的深度融合和充分泛化,也使得开发者在运用训练和推理一体化的时候更加的高效、更加的精密和更加的兼容。

从“邃思”2.5和云燧i20推理卡的发布之后,燧原科技已经完成了二代产品的布局,未来的i30和T30/T31的产品也已经在研发过程中。

总结

燧原科技通过自研架构DPU,实现了比GPU更具性价比的AI推训方案。“做大芯片、拼硬科技”是其一直奉行的理念,“每代产品比前代实现3倍能效提升、2倍性价比提升、软件向后兼容”是其产品更新的目标。此次“邃思”2.5和云燧i20推理卡的发布,标志着其推训一体的产品布局已经夯实,随着AI市场的继续发展,未来第三代产品相信也会如期而至。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭