安谋科技Arm China开启“All in AI”战略,押注本土AI产业创新
扫描二维码
随时随地手机看文章
陈锋表示,中国市场是安谋科技(Arm China)战略布局的核心所在。在“AI Arm CHINA”战略的引领下,公司正积极推动Arm全球技术生态与本土自主研发IP的深度融合,全面助力中国AI计算生态的繁荣发展。
依托“AI Arm CHINA”这一战略方向,安谋科技的各项自研IP产品在“AI+”领域均取得显著突破。近期,公司推出了专为大模型优化的新一代NPU IP——“周易”X3,聚焦终端侧AI推理,其大模型处理性能较前代提升10倍;而不久前发布的全新CPU IP“星辰”STAR-MC3,则成功为传统MCU无缝注入AI能力,实现智能化升级。
在媒体的专访环节,安谋科技(Arm China)产品总监鲍敏祺进一步给媒体分享了公司围绕AI而生的产品策略。面对“中外云端算力卡单卡性能5倍差距”的物理现实,以及大模型快速向端侧下沉的趋势,国内AI产业或可以通过安谋科技全新“周易”NPU——“周易”X3,求出一种“基于架构创新与云端协同”的破局新解。
制程受限下的“云端协同”,亟待解决的大模型落端痛点
在当前的AI芯片竞争格局中,中美市场的底层逻辑存在显著差异,算力底座上制程差异导致的性能代差,是所有从业者必须直面的“房间里的大象”。
国外大厂的端侧AI演进,往往伴随着半导体工艺的最前沿迭代,最先进制程已经推进到3nm。然而,受限于供应链环境,国内大算力芯片的主流工艺目前仍集中在6nm水平左右。
“工艺限制是客观存在的,这直接导致了整体算力规格的差距,单卡性能差距可能达到5倍。”鲍敏祺坦言。
这种物理层面的“硬伤”意味着国内厂商不能简单照搬国外的“堆料”模式。鲍敏祺提出的解题思路是“云端协同的差异化技术”。在电池技术未有革命性突破(手机功耗限制在5W,车载受限于300T算力及BIS限制)的前提下,端侧NPU不再追求像云端那样无限堆叠算力,而是通过高效的架构,承接云端蒸馏或量化后的模型。中国庞大的用户基数是独特的市场优势,这使得云跟端协同的部署在国内比国外更具紧迫性和落地价值。
针对前段时间发布的“周易”X3 NPU IP,鲍敏祺详解了其背后的技术取舍。他强调,在同样的工艺下,基于冯·诺依曼架构的芯片在面积和功耗上很难拉开本质差距,真正的决胜点在于“产品导向”,特别是对大模型浮点运算精度的支持。
鲍总在专访环节中解释道,传统的端侧NPU可能只擅长跑INT8(整数),但面对大模型,精度不够。安谋科技的“周易”X3 NPU,重点增强了浮点计算能力,特别是支持了类似 FP8 这种兼顾速度与精度的先进格式,并且配合了WC16/W4A8(Weight 4-bit, Activation 8-bit)等混合量化技术。 这样最终能够确保大模型压缩到端侧后,不仅跑得动,而且足够“聪明”,精度没有折扣损失。
“真正难的是在量化后的精度下把模型功能跑起来。”鲍敏祺解释道。如果只关注压缩率而忽视精度,大模型在端侧就会“变傻”。“周易”X3的核心逻辑,就是通过软硬结合的优化,在极度苛刻的端侧功耗限制下,依然保证大模型的推理精度。
端侧模型算法收敛带来机会窗,但通用性仍必不可少
长期以来,英伟达CUDA生态构建的护城河是国产AI芯片难以逾越的高墙,但当AI走向端侧,大模型在端侧落地时,国内AI产业就有了生态优势。当前AI技术范式正在发生变化,这给ASIC路线带来了新机会。
过去在CNN时代,算子繁多且高度依赖CUDA优化,迁移难度极大。但进入大模型(Transformer)时代,底层计算逻辑变得统一且简洁。现在大模型大概只要支持15个算子,就可以跑起来了。这种计算范式的收敛,极大地降低了国产NPU适配生态的门槛。相比于通用性极强但能效有天花板的GPGPU,针对特定算子优化的NPU(ASIC路线)在能效比上更具优势。当场景确定(如推理)、算法收敛时,专用架构的效率优势将最大化。
关于端侧NPU未来的演进方向,鲍敏祺提出了一个看似矛盾的观点:为了适应未来的Agentic AI(智能体)和Physical AI(具身智能),NPU需要适当“开倒车”——即在追求极致专用效率的同时,回归一定的通用性。
“周易”X3 NPU架构就是这一理念的体现,采用“DSP+DSA”的混合架构:Tensor Core负责处理大模型中确定性的矩阵计算,这部分越强越好,越专用越好。Vector Core负责处理通用计算,解决非标准算子。
“未来发展的方向是要更加通用。”鲍敏祺解释说,虽然推理可以通过编译解决大部分问题,但类似DeepSeek等前沿算法的演进表明,微观算子层面对通用性提出了更高要求。如果在架构上只做“偏科”的专用计算,一旦算法微调,芯片可能就无法适配。因此,安谋科技在架构设计上,正试图在“专用效率”与“通用灵活性”之间寻找新的平衡点。
结语
从媒体视角观察,端侧AI加速计算是一个明确的“蓝海”赛道,而端侧NPU既要有极强的Tensor能力,又必须增强Vector能力。安谋科技的“周易”X3 NPU IP作为公司在“AIl in AI”战略下的首个重磅产品,正是完美契合了端侧AI计算的硬件架构要求。不止于此,还在软件生态上下足了功夫。可以说,用上了“周易”X3 NPU IP,不仅能帮芯片设计公司省时间,同时还能帮算法公司解决底层适配麻烦的问题。黏合了端侧算法和硬件之间的适配难题。
在采访最后,鲍敏祺重申了安谋科技“AI Arm China”的战略定位。作为一家具有双重属性的公司,安谋科技一方面继续作为桥梁,在国内代理Arm的CPU等IP;另一方面,则通过自研的“周易”NPU、VPU、DPU等产品线,构建本土化的AI解决方案。
“端侧AI时代已经到来。”鲍敏祺总结道。在制程追赶尚需时日的背景下,通过架构创新提升能效,通过软件生态弥补算力短板,或许是国产芯片在AI下半场突围的最务实路径。





