AI优先!Arm Lumex CCS发布,移动设备迈向AI计算时代
扫描二维码
随时随地手机看文章
新的命名,新的时代开启。从Lumex CSS开始,性能提升不再是单纯的每代际双位数提升这么简单,Arm开始以AI First(AI优先)的理念覆盖全面的计算平台设计。这种理念从指令集、到CPU/GPU Core、CSS子系统、再到软件栈,实现了从下至上的垂直贯彻创新,并且在各种AI跑分测试中取得显著成效。
在近日的Arm Unlocked大会上,Arm Lumex CSS 平台及其所集成的C1 CPU集群、第二代 Arm 可伸缩矩阵扩展 (SME2) 及Mail-G1-Ultra GPU等创新技术发布,或可看作Arm推动移动终端迈向全面AI计算的关键节点。
图:Arm高级副总裁兼终端事业部总经理Chris Bergey
Arm 高级副总裁兼终端事业部总经理 Chris Bergey在主题演讲中谈到:“为扩展而生,为 AI 时代而设计。Arm Lumex CSS 平台正是移动创新未来的起点。”
SME2引入,5倍端侧AI性能提升
Arm Lumex 计算子系统(CSS)平台整合了最新的 Armv9.3 CPU 集群(包括 C1-Ultra、C1-Pro 和 C1-Premium 核心)、Mali G1-Ultra-Ultra GPU、高效系统互连以及 3nm 工艺优化的物理实现,辅以无缝的软件支持,旨在为异构 AI 工作负载提供强大的计算能力。
其中Arm C1-Ultra CPU能为设备带来出色的 25% 性能提升,非常适合处理严苛的 AI 与计算工作负载。而Arm C1-Pro CPU则将能效提升幅度达到了可观的 12%。 GPU 方面,全新的Mali G1-Ultra 集性能与能效于一身,性能提升 20% 的同时,功耗也降低了 9%。
通过引入 SME2技术,Lumex CSS 平台实现高达5 倍的 AI 性能提升,为实时语音处理、图像增强和智能助手等应用带来低延迟和高效能表现。Mali G1-Ultra-Ultra GPU 则将光线追踪性能提升高达2倍,支持桌面级游戏画质和 20% 的 AI 推理性能提升,为移动游戏和扩展现实(XR)体验带来突破。此外,平台支持主流 AI 框架(如 PyTorch ExecuTorch 和 ONNX Runtime),通过 KleidiAI 库实现自动化的 SME2 加速,让开发者无需修改代码即可获得性能提升。
Chris Bergey提到,开发者构建 AI 工作负载时的首选目标是 CPU,因此Arm投入了大量资源,让 Lumex CPU 能实现出色的 AI 加速效果。
SME2的核心在于其对矩阵运算的原生支持,这对AI工作负载至关重要。通过更为先进的指令调度和缓存预取机制,Arm针对开发者常见痛点如分支预测失效和内存访问瓶颈进行了针对性调优。这使得SME2在构建AI代理系统时,能够高效支持动态推理路径,而无需额外硬件抽象层。
Arm 终端事业部产品管理副总裁 James McNiven表示:“SME2 在机器学习、AI 场景中具有显著优势,特别是对延迟敏感型任务。因其集成于 CPU 核心,无需将数据外传处理,这种架构优势正是 SME2 的核心竞争力所在。”
Chris Bergey则在主题演讲中强调,SME2全面集成于Arm Lumex的Arm C1 CPU集群中,相较于未启用SME2的基准,性能提升3至6倍。具体而言,SME2在语音识别任务中将延迟缩短超4.7倍,经典大语言模型任务性能提升4.7倍,生成式AI处理速度加快2.8倍。对于传统AI任务(如图像分类、分割和深度估计),SME2在小型模型上的表现尤为突出,甚至超越专用GPU的性能。Chris Bergey还提到,SME2通过与KleidiAI软件的协同优化,确保主流AI框架(如LiteRT)能够无缝利用CPU的增强能力,从而提升开发者在Android和iOS生态中的开发效率。
可拓展性是Arm在进行AI计算平台布局时的另一个关注点,SME2在C1的全系列中都有支持,包括从C1 Ultra一直到C1 Nano。SME2的灵活性使其能够适配从旗舰智能手机到电池供电传感器的多样化设备,为开发者提供统一的AI加速平台,加速创新应用的上市进程。
图:Arm 终端事业部产品管理副总裁 James McNiven
此外,SME2不仅提升了单设备性能,还通过规模化部署为整个行业注入动能。预计到2030年,SME2(连同其前一代版本SME)将为超30亿台设备新增超过100亿TOPS的计算能力,推动端侧AI实现指数级飞跃。这种计算能力的提升将降低对云端的依赖,减少延迟并增强数据隐私,特别适用于隐私敏感型应用。Chris Bergey特别提到与Google在AICore模型上的合作,SME2使小型安全模型的性能提升20%,证明了其在轻量级AI任务中的高效性。
SME2增强CPU矩阵计算能力,但CPU与GPU、NPU在AI工作负载上的分工仍然是有所不同的:
· CPU(SME2):高度可编程,支持任意数据类型,适合语音识别、生成式AI音频、低延迟任务(如安全检查)。因数据留存
· CPU,无需跨单元传输,延迟敏感任务性能提升20%(如Google AICore)。
· GPU:优化图形与AI推理,例如适合视觉密集任务。
· NPU:专用AI加速,但因标准化缺失,需抽象层(如AICore)支持。
而站在开发者角度而言,他们可能更偏好CPU开发AI应用,只有当CPU的AI算力不够的时候,才会考虑将计算迁移到专用加速器。这是因为CPU的开发框架更为成熟(如PyTorch),编程简单。相比之下,GPU(OpenCL优化图形)与NPU(厂商特定单元)复杂性更高。
关键组件协同,提升AI计算系统性能
随着物理极限的逼近,针对计算能效的提升必须从系统的层面,依赖着诸多关键组件的协同优化来实现。尤其是在围绕着AI计算这样的特定目标时,仅仅通过CPU和GPU等计算核心的提升是不够的,在系统总线和内存访问调度方面,也需要更精细高效的调校。
据 James McNiven的分享,Lumex CSS上采用了全新的SI L1和MMU L1。
SI L1 是一种可扩展的系统互连组件,集成了SLC(静态锁存器缓存)和NoC(网络芯片),旨在为高性能AI设备提供完整的SoC(片上系统)连接性;与此同时,SMMU L1 作为系统内存管理单元,通过基于内存翻译的虚拟化技术,实现成本效益高的安全安卓和Windows设备的内存管理。
对比上一代的CSS互连架构设计,CPU子系统、GPU子系统以及各种设备分别通过不同的路径(CI-700和NI-700 NoC)独立连接到内存,这导致这些组件之间的通信效率不高且缺乏统一性。而新的Lumex CSS的互连架构将全新的SI L1作为所有核心的统一互连层。SI L1中包含多个MCN和SLC,能够将CPU、GPU子系统以及其他设备都通过这一个层级连接到内存和NoC上。这种设计实现了更高效的数据传输和更好的系统扩展性,从而提升了整个系统的性能和效率。
全新MMU L1的引入,对于多模态AI任务(如同时处理图像、文本和音频)尤为重要,因为这些任务往往需要频繁的内存交互。MMU L1的增强还支持开发者在主流AI框架中实现更高效的数据流水线,无需额外调整即可利用Lumex平台的内存优势,从而加速了软件开发和调试流程。
此外,在在成本效益方面,下一代移动优化内存管理单元MMU L1通过PPA优化降低了SMMU的成本,提供了可扩展的安全基础架构,支持更广泛的细分市场,从而增强了系统的安全性和灵活性。NoC S3(网络芯片互连)作为非一致性通信和区域高效的SoC连接方案,提供了灵活的片上网络互连,能够在保持必要性能的同时减少芯片面积和功耗,进一步缩减整体的成本。
总的来说,Arm Lumex利用SI L1、MMU L1和NoC S3,在保证高性能的同时也兼顾成本控制,还得以实现更高层次的系统可扩展性,满足从高性能计算到移动设备等不同应用场景的需求。
Chris Bergey还在演讲中进一步强调了Arm CSS的灵活交付方式:“在某些市场我们提供高度集成的计算网格,而在其他市场则采用可灵活组合的子模块。”这种灵活的方法已初见成效,目前全球已有超过 16 个 CSS 的技术授权许可,其中半数是在过去 12 个月内所发生。
自始至终,Arm CSS的初衷即为客户提供一个经过验证的计算基础,让客户能够以相对较低的成本实现自身所需的定制化。Arm关注的是构建高效计算平台本身,而非直接打造一个公版的SoC给客户,这里面存在着极大的区别。
因为有了CSS,客户就无需花费更多时间精力在整合Arm IP上,而是可以把更多专注于真正能带来差异化的部分,这些部分才是客户自己对于应用场景的深入理解和独有专长能够发挥的地方——例如自动驾驶加速器、手机端的 ISP 与影像处理管线,或是数据中心中与计算单元深度耦合的特定工作负载加速器等等。
结语
Arm Lumex CSS平台的发布,不仅标志着移动计算迈向AI优先的新时代,更彰显了Arm以生态协同与技术创新驱动未来的雄心。从SME2赋能的5倍AI性能飞跃,到SI L1与MMU L1的系统级优化,Lumex为旗舰智能手机到智能端侧设备提供了统一的计算底座,兼顾性能、能效与普惠性。预计到2030年,SME与SME2将为超30亿台设备新增100亿TOPS算力,推动端侧AI在隐私、延迟与成本上的指数级突破。与vivo、支付宝、Google等伙伴的深度合作,也印证了Arm Lumex在中国市场的落地潜力,足以覆盖从智能助手到游戏AI等更为丰富的应用场景。





