当前位置:首页 > 原创 > 刘岩轩
[导读]近日燧原科技发布新一代“邃思”AI推理芯片,采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。

近日燧原科技发布了其最新的“邃思”AI推理芯片及其推理卡云燧i20,这是其推理产品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。

另外一个重要意义在于,第二代推理产品的面市意味着燧原科技已经实现了推理+训练的第二代产品组合的全面迭代,这是AI国产自研架构芯片稳步有序迈进的体现。

在燧原科技“芯怀天地”新品发布会上,燧原科技CEO赵立东和COO张亚林针对推理训练产品及其最新技术进行了精彩的分享。


AI市场新趋势:推理产品比例变高


人工智能分为训练和推理两个主要的任务,训练是指创建机器学习算法的过程,训练的比例和整个数据科学家的生产力直接相关,需要大量的计算资源来部署学习框架和训练数据集。而推理指的是使用经过训练的算法来进行预测,因此跟整个用户和海量的应用直接相关,与用户和用户所持应用的数量乘积成直接正比例的关系。

上图是从2017到2023年AI市场的走势,可以看到推理在整个AI市场中占的比例在逐渐增大,推理的实际应用场景也变得多元化,AI的业务从传统单一的机器视觉、声音、文字、决策、推荐等方向性的算法,逐步变成多场景、多应用的落地,广泛分布在用户日常生活中。结合推理的客户需求场景,这样的计算密集型应用对于性价比的考量也会更为敏感。所以除了GPU之外的其他更具性价比的方案,有望在这部分实现突围。针对这样的趋势,AI芯片公司譬如燧原科技早也在推理产品上进行了投入和布局。

在去年12月,燧原科技就发布了其首款神经网络模型推理引擎“鉴算TopsInference”及其“云燧i10”推理卡。通过鉴算TopsInference的推理加速,配合云燧i10的高算力及虚拟化技术,可以对计算密集型深度学习工作负载提供高性价比的部署方案。到了今年12月刚好一年的时间,燧原科技随即发布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20。这也意味着其推理产品也进入了有序的迭代节奏中,同时也是对于当前AI市场推理产品旺盛需求的及时产品补充。


DTU2.5 :国内首颗TF23推理芯片


“邃思2.5”采用的是专门为云端推理场景而自主研发的计算架构,燧原在这颗芯片上,针对场景落地需求、包括性价比和能效比都有着严苛的设计要求。

据张亚东介绍,“邃思”推理芯片采用具备全AI算力空间的计算架构,具备32位的算力,从FP32一直到INT8,包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间,满足各种各样推理的客户需求。单精度FP32达到了32 TFLOPS、单精度张量TF32达到了128 TFLOPS;同样具备半精度BF16/FP16的算力,达到128 TFLOPS。在最重要的推理方面,整数精度INT8也有了提升,达到256TOPS。

据悉,这是中国第一颗具备TF32张量单精度的推理芯片,能用16位的算力达到32位的精度,实现4倍于FP32的算力,同时保持99%的整个模型精度一致性。

数据架构方面采用了完全自研的 (Sparse Value Segment ) 数据压缩格式,能够进行独立的分层压缩和硬件自动循环解压,使得所有的数据(特别是稀疏数据)在传输过程带宽和功耗减少。同时支持硬件指令预取的操作,使得指令的预取、数据的传输和计算可以同时进行,进行并行的数据广播,使得同样的数据可以广播到多个处理器上进行并行执行。同时,这种数据压缩格式还具有很强的动态功耗控制,让整个数据传输的动态功耗变得非常的有效。

内存方面是采用两颗HBM2E,单芯片容量为16GB,最大带宽达到819GB/s。封装形式采用了2.5D的封装,整合了5颗芯片进去,尺寸为55mmX55mm。

除了能效比、性价比这些关键因素之外,用户的实际部署易用性也是非常重要的考量。针对当前爆炸式增长的多样化的推理落地场景,燧原科技进一步加强推理软件栈,使其更加泛化易用,满足更多客户日益增长的需求。


超越主流GPU的性价比之选


搭载2.5代DTU的推理加速卡云燧i20,纵向上实现了比前代产品的大幅提升,横向上对比GPU的方案也有更好的性价比。

相比云燧i10,云燧i20的浮点32位的算力从17.6T提升到32T,浮点16位的算力从70.4T提升到了128T,INT8整点8位的算力从70.4T提升到了256T,HBM2升级到HBM2E后相应的带宽也从512GB提升了819GB,连接方式和功耗表现上与前代保持一致。

如下图所示,根据燧原科技提供的和某次旗舰GPU加速卡的对比数据,以该次旗舰GPU的参数为基准,i20的浮点16位的算力是其2倍,INT8的算力是2倍,内存带宽是2.65倍。

据张亚东介绍,在DTU2.5设计最初,燧原就定了其性能目标——至少达到主流GPU次旗舰的2.5倍以上,最高达到3.5倍。在这样的设计目标驱动下,搭载DTU2.5出来i20的实际效果也确实是精准地完成了这一目标。

在实时性方面,DTU相比GPU也有非常出色的表现,根据燧原科技展示的一个实时语意分析的对比demo展示,DTU的实时性能(吞吐量)是GPU的2.5倍以上,而实时的延时DTU却只有GPU的一半不到。在这种典型的NLP——bert应用中,DTU展现了至少2.5倍于GPU的性能。


“训推一体化”产品组合升级到第二代


此次全新二代云端推理产品的推出,使得燧原构建了T20+i20的第二代训推产品组合。但仅仅有产品是不够的,燧原科技还同步将训推一体化的系统进行了增强,使得用户可以方便使用T20和i20,完成训练加推理一体化的部署。

据张亚东介绍,在TopsRider软件系统里,从高层的图优化到中间的算子库再到中间的编程模型,最后到底层的Runtime,四个阶段中分别都实现了整个训练和推理引擎的统一,使得用一套结构可以支持所有训练和推理软件栈。这样统一的表达、统一的训练推理的算子编程模型、统一的Runtime,让T20+i20在训练和推理栈上进行了很好的深度融合和充分泛化,也使得开发者在运用训练和推理一体化的时候更加的高效、更加的精密和更加的兼容。

从“邃思”2.5和云燧i20推理卡的发布之后,燧原科技已经完成了二代产品的布局,未来的i30和T30/T31的产品也已经在研发过程中。

总结

燧原科技通过自研架构DPU,实现了比GPU更具性价比的AI推训方案。“做大芯片、拼硬科技”是其一直奉行的理念,“每代产品比前代实现3倍能效提升、2倍性价比提升、软件向后兼容”是其产品更新的目标。此次“邃思”2.5和云燧i20推理卡的发布,标志着其推训一体的产品布局已经夯实,随着AI市场的继续发展,未来第三代产品相信也会如期而至。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

2024年4月12日,中国--服务多重电子应用领域、全球排名前列的半导体公司意法半导体(STMicroelectronics,简称ST;纽约证券交易所代码:STM)宣布,松下自行车科技有限公司(Panasonic)宣布采...

关键字: 人工智能 电动自行车

4月17日消息,斯坦福大学近日发布《2024年AI指数报告》(AI Index Report 2024),凭借AI在大规模胰腺癌早筛上的创新突破,阿里达摩院(湖畔实验室)医疗AI入选科学与医疗领域的年度亮点研究(High...

关键字: AI 人工智能 集成电路

4月17日消息,去年,中国大陆的半导体设备支出约占据了全球总额的三分之一。

关键字: 半导体 传感器 人工智能 电动汽车

上海2024年4月16日 /美通社/ -- 4月11日,中智《百川汇流 央地融通,全力以赴加快五个中心建设》主题大会在上海成功举办,本次大会由上海市经信委和上海市国资委指导、中智经济技术合作股份有限公司和中智管理咨询有限...

关键字: AI 电气 人工智能 半导体

Apr. 16, 2024 ---- NVIDIA新一代平台Blackwell,包含B系列GPU及整合NVIDIA自家Grace Arm CPU的GB200等。TrendForce集邦咨询指出,GB200的前一代为GH2...

关键字: CPU GPU

该实验室的创新技术能够增强人工智能边缘解决方案,提高神经网络能力

关键字: 人工智能 神经网络

机器学习作为人工智能领域的重要组成部分,其过程涉及到多个核心环节。本文将详细阐述机器学习的四个主要步骤:数据准备、模型选择、模型训练与评估,以及模型部署与应用,以揭示机器学习从数据到应用的完整流程。

关键字: 数据 人工智能 机器学习

随着信息技术的迅猛发展和大数据时代的到来,机器学习成为了人工智能领域中的核心技术之一。机器学习是通过模拟人类学习行为,使计算机系统能够从数据中自动发现规律、提取特征并进行预测和决策的过程。它在诸多领域取得了广泛的应用,包...

关键字: 计算机 人工智能 机器学习

机器学习算法是人工智能领域中的核心技术之一,它通过对大量数据进行学习,自动发现数据中的规律和模式,从而实现对新数据的预测、分类、聚类等任务。本文将深入探讨机器学习算法的基本过程,包括数据准备、模型选择、训练与评估等关键步...

关键字: 数据 人工智能 机器学习

机器学习是人工智能领域的一个重要分支,它使用各种算法来使计算机系统能够从数据中学习和改进,而无需进行明确的编程。在机器学习的广阔领域中,有多种算法被广泛应用,每种算法都有其独特的适用场景和优势。本文将详细介绍机器学习中的...

关键字: 机器学习 人工智能 计算机
关闭