当前位置:首页 > 原创 > 刘岩轩
[导读]Arm Lumex CSS平台的发布,不仅标志着移动计算迈向AI优先的新时代,更彰显了Arm以生态协同与技术创新驱动未来的雄心。从SME2赋能的5倍AI性能飞跃,到SI L1与MMU L1的系统级优化,Lumex为旗舰智能手机到智能端侧设备提供了统一的计算底座,兼顾性能、能效与普惠性。预计到2030年,SME与SME2将为超30亿台设备新增100亿TOPS算力,推动端侧AI在隐私、延迟与成本上的指数级突破。与vivo、支付宝、Google等伙伴的深度合作,也印证了Arm Lumex在中国市场的落地潜力,足以覆盖从智能助手到游戏AI等更为丰富的应用场景。

新的命名,新的时代开启。从Lumex CSS开始,性能提升不再是单纯的每代际双位数提升这么简单,Arm开始以AI First(AI优先)的理念覆盖全面的计算平台设计。这种理念从指令集、到CPU/GPU Core、CSS子系统、再到软件栈,实现了从下至上的垂直贯彻创新,并且在各种AI跑分测试中取得显著成效。

在近日的Arm Unlocked大会上,Arm Lumex CSS 平台及其所集成的C1 CPU集群、第二代 Arm 可伸缩矩阵扩展 (SME2) 及Mail-G1-Ultra GPU等创新技术发布,或可看作Arm推动移动终端迈向全面AI计算的关键节点。

图:Arm高级副总裁兼终端事业部总经理Chris Bergey

Arm 高级副总裁兼终端事业部总经理 Chris Bergey在主题演讲中谈到:“为扩展而生,为 AI 时代而设计。Arm Lumex CSS 平台正是移动创新未来的起点。”

SME2引入,5倍端侧AI性能提升

Arm Lumex 计算子系统(CSS)平台整合了最新的 Armv9.3 CPU 集群(包括 C1-Ultra、C1-Pro 和 C1-Premium 核心)、Mali G1-Ultra-Ultra GPU、高效系统互连以及 3nm 工艺优化的物理实现,辅以无缝的软件支持,旨在为异构 AI 工作负载提供强大的计算能力。

其中Arm C1-Ultra CPU能为设备带来出色的 25% 性能提升,非常适合处理严苛的 AI 与计算工作负载。而Arm C1-Pro CPU则将能效提升幅度达到了可观的 12%。 GPU 方面,全新的Mali G1-Ultra 集性能与能效于一身,性能提升 20% 的同时,功耗也降低了 9%。

通过引入 SME2技术,Lumex CSS 平台实现高达5 倍的 AI 性能提升,为实时语音处理、图像增强和智能助手等应用带来低延迟和高效能表现。Mali G1-Ultra-Ultra GPU 则将光线追踪性能提升高达2倍,支持桌面级游戏画质和 20% 的 AI 推理性能提升,为移动游戏和扩展现实(XR)体验带来突破。此外,平台支持主流 AI 框架(如 PyTorch ExecuTorch 和 ONNX Runtime),通过 KleidiAI 库实现自动化的 SME2 加速,让开发者无需修改代码即可获得性能提升。

Chris Bergey提到,开发者构建 AI 工作负载时的首选目标是 CPU,因此Arm投入了大量资源,让 Lumex CPU 能实现出色的 AI 加速效果。

SME2的核心在于其对矩阵运算的原生支持,这对AI工作负载至关重要。通过更为先进的指令调度和缓存预取机制,Arm针对开发者常见痛点如分支预测失效和内存访问瓶颈进行了针对性调优。这使得SME2在构建AI代理系统时,能够高效支持动态推理路径,而无需额外硬件抽象层。

Arm 终端事业部产品管理副总裁 James McNiven表示:“SME2 在机器学习、AI 场景中具有显著优势,特别是对延迟敏感型任务。因其集成于 CPU 核心,无需将数据外传处理,这种架构优势正是 SME2 的核心竞争力所在。”

Chris Bergey则在主题演讲中强调,SME2全面集成于Arm Lumex的Arm C1 CPU集群中,相较于未启用SME2的基准,性能提升3至6倍。具体而言,SME2在语音识别任务中将延迟缩短超4.7倍,经典大语言模型任务性能提升4.7倍,生成式AI处理速度加快2.8倍。对于传统AI任务(如图像分类、分割和深度估计),SME2在小型模型上的表现尤为突出,甚至超越专用GPU的性能。Chris Bergey还提到,SME2通过与KleidiAI软件的协同优化,确保主流AI框架(如LiteRT)能够无缝利用CPU的增强能力,从而提升开发者在Android和iOS生态中的开发效率。

可拓展性是Arm在进行AI计算平台布局时的另一个关注点,SME2在C1的全系列中都有支持,包括从C1 Ultra一直到C1 Nano。SME2的灵活性使其能够适配从旗舰智能手机到电池供电传感器的多样化设备,为开发者提供统一的AI加速平台,加速创新应用的上市进程。

图:Arm 终端事业部产品管理副总裁 James McNiven

此外,SME2不仅提升了单设备性能,还通过规模化部署为整个行业注入动能。预计到2030年,SME2(连同其前一代版本SME)将为超30亿台设备新增超过100亿TOPS的计算能力,推动端侧AI实现指数级飞跃。这种计算能力的提升将降低对云端的依赖,减少延迟并增强数据隐私,特别适用于隐私敏感型应用。Chris Bergey特别提到与Google在AICore模型上的合作,SME2使小型安全模型的性能提升20%,证明了其在轻量级AI任务中的高效性。

SME2增强CPU矩阵计算能力,但CPU与GPU、NPU在AI工作负载上的分工仍然是有所不同的:

· CPU(SME2):高度可编程,支持任意数据类型,适合语音识别、生成式AI音频、低延迟任务(如安全检查)。因数据留存    

· CPU,无需跨单元传输,延迟敏感任务性能提升20%(如Google AICore)。

· GPU:优化图形与AI推理,例如适合视觉密集任务。

· NPU:专用AI加速,但因标准化缺失,需抽象层(如AICore)支持。

而站在开发者角度而言,他们可能更偏好CPU开发AI应用,只有当CPU的AI算力不够的时候,才会考虑将计算迁移到专用加速器。这是因为CPU的开发框架更为成熟(如PyTorch),编程简单。相比之下,GPU(OpenCL优化图形)与NPU(厂商特定单元)复杂性更高。


关键组件协同,提升AI计算系统性能

随着物理极限的逼近,针对计算能效的提升必须从系统的层面,依赖着诸多关键组件的协同优化来实现。尤其是在围绕着AI计算这样的特定目标时,仅仅通过CPU和GPU等计算核心的提升是不够的,在系统总线和内存访问调度方面,也需要更精细高效的调校。

据 James McNiven的分享,Lumex CSS上采用了全新的SI L1和MMU L1。

SI L1 是一种可扩展的系统互连组件,集成了SLC(静态锁存器缓存)和NoC(网络芯片),旨在为高性能AI设备提供完整的SoC(片上系统)连接性;与此同时,SMMU L1 作为系统内存管理单元,通过基于内存翻译的虚拟化技术,实现成本效益高的安全安卓和Windows设备的内存管理。

对比上一代的CSS互连架构设计,CPU子系统、GPU子系统以及各种设备分别通过不同的路径(CI-700和NI-700 NoC)独立连接到内存,这导致这些组件之间的通信效率不高且缺乏统一性。而新的Lumex CSS的互连架构将全新的SI L1作为所有核心的统一互连层。SI L1中包含多个MCN和SLC,能够将CPU、GPU子系统以及其他设备都通过这一个层级连接到内存和NoC上。这种设计实现了更高效的数据传输和更好的系统扩展性,从而提升了整个系统的性能和效率。

全新MMU L1的引入,对于多模态AI任务(如同时处理图像、文本和音频)尤为重要,因为这些任务往往需要频繁的内存交互。MMU L1的增强还支持开发者在主流AI框架中实现更高效的数据流水线,无需额外调整即可利用Lumex平台的内存优势,从而加速了软件开发和调试流程。

此外,在在成本效益方面,下一代移动优化内存管理单元MMU L1通过PPA优化降低了SMMU的成本,提供了可扩展的安全基础架构,支持更广泛的细分市场,从而增强了系统的安全性和灵活性。NoC S3(网络芯片互连)作为非一致性通信和区域高效的SoC连接方案,提供了灵活的片上网络互连,能够在保持必要性能的同时减少芯片面积和功耗,进一步缩减整体的成本。

总的来说,Arm Lumex利用SI L1、MMU L1和NoC S3,在保证高性能的同时也兼顾成本控制,还得以实现更高层次的系统可扩展性,满足从高性能计算到移动设备等不同应用场景的需求。

Chris Bergey还在演讲中进一步强调了Arm CSS的灵活交付方式:“在某些市场我们提供高度集成的计算网格,而在其他市场则采用可灵活组合的子模块。”这种灵活的方法已初见成效,目前全球已有超过 16 个 CSS 的技术授权许可,其中半数是在过去 12 个月内所发生。

自始至终,Arm CSS的初衷即为客户提供一个经过验证的计算基础,让客户能够以相对较低的成本实现自身所需的定制化。Arm关注的是构建高效计算平台本身,而非直接打造一个公版的SoC给客户,这里面存在着极大的区别。

因为有了CSS,客户就无需花费更多时间精力在整合Arm IP上,而是可以把更多专注于真正能带来差异化的部分,这些部分才是客户自己对于应用场景的深入理解和独有专长能够发挥的地方——例如自动驾驶加速器、手机端的 ISP 与影像处理管线,或是数据中心中与计算单元深度耦合的特定工作负载加速器等等。


结语

Arm Lumex CSS平台的发布,不仅标志着移动计算迈向AI优先的新时代,更彰显了Arm以生态协同与技术创新驱动未来的雄心。从SME2赋能的5倍AI性能飞跃,到SI L1与MMU L1的系统级优化,Lumex为旗舰智能手机到智能端侧设备提供了统一的计算底座,兼顾性能、能效与普惠性。预计到2030年,SME与SME2将为超30亿台设备新增100亿TOPS算力,推动端侧AI在隐私、延迟与成本上的指数级突破。与vivo、支付宝、Google等伙伴的深度合作,也印证了Arm Lumex在中国市场的落地潜力,足以覆盖从智能助手到游戏AI等更为丰富的应用场景。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭