安谋科技Arm China开启“All in AI”战略，押注本土AI产业创新

时间：2025-12-02 14:06:11

关键字：安谋科技 AI NPU

手机看文章

扫描二维码
随时随地手机看文章

[导读]端侧AI的时代已经到来，围绕端侧的AI计算加速将会是一个快速增长的市场，但同时“千端万象”带来的模型、场景差异化，让这一市场对于计算的要求更为苛刻——灵活、可拓展、功耗要求高。安谋科技（Arm China）敏锐捕捉到了这一个划时代的机遇，开启了“All in AI”的公司战略。近日在ICCAD-Expo 2025上，安谋科技CEO 陈锋受邀出席高峰论坛，强调了“AI Arm China”的战略发展方向，并表示未来公司将聚焦AI领域，打造坚实的算力底座，加速中国智能计算产业跃迁。

端侧AI的时代已经到来，围绕端侧的AI计算加速将会是一个快速增长的市场，但同时“千端万象”带来的模型、场景差异化，让这一市场对于计算的要求更为苛刻——灵活、可拓展、功耗要求高。安谋科技（Arm China）敏锐捕捉到了这一个划时代的机遇，开启了“All in AI”的公司战略。近日在ICCAD-Expo 2025上，安谋科技CEO 陈锋受邀出席高峰论坛，强调了“AI Arm China”的战略发展方向，并表示未来公司将聚焦AI领域，打造坚实的算力底座，加速中国智能计算产业跃迁。

陈锋表示，中国市场是安谋科技（Arm China）战略布局的核心所在。在“AI Arm CHINA”战略的引领下，公司正积极推动Arm全球技术生态与本土自主研发IP的深度融合，全面助力中国AI计算生态的繁荣发展。

依托“AI Arm CHINA”这一战略方向，安谋科技的各项自研IP产品在“AI+”领域均取得显著突破。近期，公司推出了专为大模型优化的新一代NPU IP——“周易”X3，聚焦终端侧AI推理，其大模型处理性能较前代提升10倍；而不久前发布的全新CPU IP“星辰”STAR-MC3，则成功为传统MCU无缝注入AI能力，实现智能化升级。

在媒体的专访环节，安谋科技（Arm China）产品总监鲍敏祺进一步给媒体分享了公司围绕AI而生的产品策略。面对“中外云端算力卡单卡性能5倍差距”的物理现实，以及大模型快速向端侧下沉的趋势，国内AI产业或可以通过安谋科技全新“周易”NPU——“周易”X3，求出一种“基于架构创新与云端协同”的破局新解。

制程受限下的“云端协同”，亟待解决的大模型落端痛点

在当前的AI芯片竞争格局中，中美市场的底层逻辑存在显著差异，算力底座上制程差异导致的性能代差，是所有从业者必须直面的“房间里的大象”。

国外大厂的端侧AI演进，往往伴随着半导体工艺的最前沿迭代，最先进制程已经推进到3nm。然而，受限于供应链环境，国内大算力芯片的主流工艺目前仍集中在6nm水平左右。

“工艺限制是客观存在的，这直接导致了整体算力规格的差距，单卡性能差距可能达到5倍。”鲍敏祺坦言。

这种物理层面的“硬伤”意味着国内厂商不能简单照搬国外的“堆料”模式。鲍敏祺提出的解题思路是“云端协同的差异化技术”。在电池技术未有革命性突破（手机功耗限制在5W，车载受限于300T算力及BIS限制）的前提下，端侧NPU不再追求像云端那样无限堆叠算力，而是通过高效的架构，承接云端蒸馏或量化后的模型。中国庞大的用户基数是独特的市场优势，这使得云跟端协同的部署在国内比国外更具紧迫性和落地价值。

针对前段时间发布的“周易”X3 NPU IP，鲍敏祺详解了其背后的技术取舍。他强调，在同样的工艺下，基于冯·诺依曼架构的芯片在面积和功耗上很难拉开本质差距，真正的决胜点在于“产品导向”，特别是对大模型浮点运算精度的支持。

鲍总在专访环节中解释道，传统的端侧NPU可能只擅长跑INT8（整数），但面对大模型，精度不够。安谋科技的“周易”X3 NPU，重点增强了浮点计算能力，特别是支持了类似 FP8 这种兼顾速度与精度的先进格式，并且配合了WC16/W4A8（Weight 4-bit, Activation 8-bit）等混合量化技术。这样最终能够确保大模型压缩到端侧后，不仅跑得动，而且足够“聪明”，精度没有折扣损失。

“真正难的是在量化后的精度下把模型功能跑起来。”鲍敏祺解释道。如果只关注压缩率而忽视精度，大模型在端侧就会“变傻”。“周易”X3的核心逻辑，就是通过软硬结合的优化，在极度苛刻的端侧功耗限制下，依然保证大模型的推理精度。

端侧模型算法收敛带来机会窗，但通用性仍必不可少

长期以来，英伟达CUDA生态构建的护城河是国产AI芯片难以逾越的高墙，但当AI走向端侧，大模型在端侧落地时，国内AI产业就有了生态优势。当前AI技术范式正在发生变化，这给ASIC路线带来了新机会。

过去在CNN时代，算子繁多且高度依赖CUDA优化，迁移难度极大。但进入大模型（Transformer）时代，底层计算逻辑变得统一且简洁。现在大模型大概只要支持15个算子，就可以跑起来了。这种计算范式的收敛，极大地降低了国产NPU适配生态的门槛。相比于通用性极强但能效有天花板的GPGPU，针对特定算子优化的NPU（ASIC路线）在能效比上更具优势。当场景确定（如推理）、算法收敛时，专用架构的效率优势将最大化。

关于端侧NPU未来的演进方向，鲍敏祺提出了一个看似矛盾的观点：为了适应未来的Agentic AI（智能体）和Physical AI（具身智能），NPU需要适当“开倒车”——即在追求极致专用效率的同时，回归一定的通用性。

“周易”X3 NPU架构就是这一理念的体现，采用“DSP+DSA”的混合架构：Tensor Core负责处理大模型中确定性的矩阵计算，这部分越强越好，越专用越好。Vector Core负责处理通用计算，解决非标准算子。

“未来发展的方向是要更加通用。”鲍敏祺解释说，虽然推理可以通过编译解决大部分问题，但类似DeepSeek等前沿算法的演进表明，微观算子层面对通用性提出了更高要求。如果在架构上只做“偏科”的专用计算，一旦算法微调，芯片可能就无法适配。因此，安谋科技在架构设计上，正试图在“专用效率”与“通用灵活性”之间寻找新的平衡点。

结语

从媒体视角观察，端侧AI加速计算是一个明确的“蓝海”赛道，而端侧NPU既要有极强的Tensor能力，又必须增强Vector能力。安谋科技的“周易”X3 NPU IP作为公司在“AIl in AI”战略下的首个重磅产品，正是完美契合了端侧AI计算的硬件架构要求。不止于此，还在软件生态上下足了功夫。可以说，用上了“周易”X3 NPU IP，不仅能帮芯片设计公司省时间，同时还能帮算法公司解决底层适配麻烦的问题。黏合了端侧算法和硬件之间的适配难题。

在采访最后，鲍敏祺重申了安谋科技“AI Arm China”的战略定位。作为一家具有双重属性的公司，安谋科技一方面继续作为桥梁，在国内代理Arm的CPU等IP；另一方面，则通过自研的“周易”NPU、VPU、DPU等产品线，构建本土化的AI解决方案。

“端侧AI时代已经到来。”鲍敏祺总结道。在制程追赶尚需时日的背景下，通过架构创新提升能效，通过软件生态弥补算力短板，或许是国产芯片在AI下半场突围的最务实路径。