当前位置:首页 > 原创 > 蔡璐
[导读]为了更好地满足AI实际用例的需求,今年Arm推出了一系列先进的解决方案,包括面向消费电子设备的全新计算子系统——Arm终端计算子系统(CSS),内涵基于Arm第五代GPU架构构建的全新GPU和最新的Armv9.2 CPU集群,以及面向热门AI框架的Arm Kleidi软件库。

近两年,生成式AI的横空出世,给终端市场带来了全新的交互模式,并推动高性能算力需求呈现出了爆发式增长态势。在此背景下,越来越多的芯片厂商开始厉兵秣马,加快推进与之相关的产品研发与技术应用。

作为全球领先的半导体计算平台公司,Arm自然也观察到了这一趋势,为此在今年推出了一系列先进的解决方案,包括面向消费电子设备的全新计算子系统——Arm终端计算子系统(CSS),内涵基于Arm第五代GPU架构构建的全新GPU和最新的Armv9.2 CPU集群,以及面向热门AI框架的Arm Kleidi软件库。

为了让大家全面地了解这些创新成果,在近日举办的“Arm技术媒体分享日”活动上,官方对其进行了详细介绍,并分享了相关领域的技术发展与应用情况。

Arm终端CSS——消费电子技术的AI根基

作为AI体验的计算基础,Arm终端CSS显得尤为重要。

Arm终端事业部智能手机市场高级总监Steve Raphael介绍,以Arm为计算基础构建的软件平台是世界上最为普适且重要的软件平台,而今年全新推出的Arm终端CSS则是为各类消费电子设备打造新一代AI体验的专用计算平台。该平台囊括了最新的Armv9.2 Cortex CPU集群和最新的Arm Immortalis与Arm Mali GPU、CoreLink互连系统IP,以及知名代工厂采用3nm工艺生产就绪的CPU和GPU物理实现,可以为AI和其他实际用例计算工作负载提供出色的性能和效率。

“事实上,Arm在AI方面已钻研许久,早在2021年,我们就推出了专为性能和AI而设计的Armv9架构,并在过去几年中提高了在矢量加速、机器学习(ML)等领域的计算能力、增强了系统的安全性和稳健性,更重要的是增加了面向AI的功能。”Steve Raphael在会上谈道,基于去年Armv9.2取得的成功,Arm进一步提升了高性能计算水平,并以效率为核心,为开发者和消费者带来了全新的Arm终端CSS,希望他们能够在Arm平台上打造更卓越、快速的AI体验。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Arm终端事业部智能手机市场高级总监 Steve Raphael

作为Arm目前面向安卓系统速度最快的平台,Arm终端CSS相较于2023 Arm全面计算解决方案(TCS23)平台,在关键基准和一般计算用例方面实现了显著改进。

根据官方提供的数据显示,在Arm终端CSS强大的性能优势下,通过Geekbench 6单核分数测量可知,得益于新的Cortex-X925,峰值性能提高了36%;在前十大应用中,五款应用的平均启动时间加快了33%;通过Speedometer 2.1浏览器基准测量时,网页浏览速度加快了60%;在包括光线追踪和可变速率着色(VRS)基准等七项图形基准中,峰值图形性能平均提高了30%。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Arm终端CSS的一些性能优势

对此,Arm终端事业部产品管理总监Steve Hopper指出,高端移动平台配置往往由三个主要因素驱动,即需要针对实际工作负载优化计算性能、需要针对生成式AI工作负载提高性能,以及持续专注于提高系统能效以充分延长电池的使用时间。这三个驱动因素构成了Arm内部参考平台演进的基础。

要知道,移动AI带来的终端算力提升,最直接的反应在于图像与视频的处理能力上。而Arm终端CSS的一大亮点,便是可以为计算摄影工作负载提供高能效的性能、赋能新的视觉效果。“与去年的上一代产品相比,我们在CPU上运行焦外成像工作负载算法的性能提高了24%。这意味着,用户可在不影响电池续航时间的前提下,在照片和视频上获得更快、更顺畅的焦外成像效果。”Steve Hopper介绍说。

除此之外,Arm终端CSS的另一个特点,则是为CPU和GPU上的AI推理工作负载带来了显著的性能飞跃。例如,采用Cortex-X925时,与上一代Cortex-X4相比,推理速度加快59%;采用Immortalis-G925时,与2023 Arm全面计算解决方案 (TCS23) 相比,AI推理速度加快36%。另外,通过在Arm终端CSS的CPU集群配置中利用一颗额外的Cortex-X925 CPU,Arm还观察到,在17个主流网络中,针对int8和fp16数据类型的AI推理性能大幅提升了170%,这一涨幅是十分惊人的!

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Arm终端CSS提升AI推理

据悉,Arm终端CSS之所以能够实现卓越的AI用户体验,并称为“Arm最快的安卓平台”,主要得益于硬件进步与Arm Compute Library优化相结合所产生的强大效果。

“以大语言模型(LLM)工作负载为例,除了计算吞吐量之外,内存系统、带宽和工作负载大小等也起着重要作用。所有的这些方面都需要精心调整,才能在细分市场和设备级别均获得理想的移动体验。我们设计了从IP到软件的整个平台,以提供出色能效,从而实现更久、更丰富的移动体验。终端CSS为高端移动设备解锁了AI性能,并推动了AI在更低价位的设备中的应用。”Steve Hopper如是说。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Arm终端事业部产品管理总监 Steve Hopper

Armv9.2 CPU集群——开启新一代AI体验

随着AI工作负载的计算强度及复杂度持续增长,Arm还推出了最新的Armv9.2 CPU集群,其更强性能、更高效率,以及更多功能,为新一代AI奠定了扎实基础。

据官方介绍,新增至Armv9 CPU组合的新品包括具备超强性能的Arm Cortex-X925 CPU和可持续提供出色性能的Arm Cortex-A725 CPU;而更新后的Arm Cortex-A520,可为低强度工作负载提供更卓越的能效表现。与此同时,Arm也更新了DynamIQ Shared Unit(DSU-120),从而在Armv9.2 CPU集群配置中,降低功耗和缩小面积。

据悉,所有的这些产品都被集成到了Arm终端CSS上,通过提供一整套实际用例的改进,集群中的各个CPU组件均涵盖了广泛的实际用例和工作负载,从而为安卓智能手机、PC和笔记本电脑等设备,提供了出色的性能与用户体验。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Armv9 CPU系列的新产品及更新

Arm终端事业部高级产品经理Manish Pandey介绍,在最新的Armv9.2 CPU集群中,Cortex-X925是Arm迄今为止速度最快、性能最强的CPU。与此前的Cortex-X产品相比,Cortex-X925的单线程(峰值)性能提升了36%,AI性能提高了46%。另外,Cortex-X925通过经优化的3nm工艺,辅以卓越的子系统和封装,还使得新一代消费电子设备的性能分数可提高30%以上。

在Manish Pandey看来,Cortex-X925不仅是另一个CPU换代产品,更是实现了相当出色的IPC表现。“我们构建Cortex-X核心的目的,不仅是为了取得卓越的基准测试结果,更是为了满足AI等实际用例的需求。Cortex-X925代表了Arm在性能方面的又一次重大飞跃,得益于这些微架构的进展,我们实现了Cortex-X系列有史以来最大幅度的性能提升,在基准测试、AI和实际应用中均取得了全面提升。”

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Cortex-X925性能提升

为了将性能效率推向新的高度,Arm在最新的Armv9.2 CPU集群中还推出了Cortex-A725。据悉,Cortex-A725的性能效率提升,同样得益于其微架构的改进。

与上一代产品Cortex-A720相比,Cortex-A725的性能效率提升了35%,能效提升了25%。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Cortex-A725性能和能效提升

而更新后的Cortex-A520,则是Arm今年推出的另一个重要产品。虽然这款产品所采用的微架构更新频率较低,但这并不意味着Arm没有做出任何改进。得益于3nm工艺的实现,Cortex-A520与TCS23中的Cortex-A520相比,能效提升了15%。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:更新后的Cortex-A520

值得一提的是,DSU是一款特别的IP,它的性能指标包括缓存大小、带宽、延迟、漏电和动态功耗,这些指标往往会与实际用例之间存在紧密的牵动。据Manish Pandey介绍,今年Arm的DSU-120针对多个新用例进行了重点更新,主要聚焦在PPA和功耗方面的改善。

作为Arm终端CSS的一部分,DSU-120现已针对新一代用例和消费电子设备体验进行了强化,其中包括新的性能和效率功能、新的低功耗模式和面向主流消费电子设备的强化,并保留了为高性能用例扩展到14个核心的选项。得益于此,典型工作负载的功耗显著降低50%,并且整个CPU集群的缓存未命中功耗降低60%,从而可减少漏电并延长设备的电池寿命。

除此之外,最新的Arm CPU集群还可为各类的消费电子设备提供出色的扩展能力。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:DSU-120更新和提升

“总之,在最新的Armv9.2 CPU集群当中,Cortex-A925实现了一流的IPC,卓越的单线程核心性能;而Cortex-A725提供了出色的持续性能。这是Arm迄今为止面向AI和UI的性能最强大的CPU集群。”Manish Pandey表示,展望未来,Arm有信心在下一代设备的CPU IPC方面取得领先,为广泛的消费电子设备提供前所未有的性能、效率和广泛用途。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Arm终端事业部高级产品经理 Manish Pandey

全新Arm GPU——为AI创新带来无限可能

作为Arm终端CSS的重要组件之一,第二代基于Arm第五代GPU架构构建的GPU产品同样值得一提。

安谋科技(Arm China)市场总监王刚介绍,新一代Arm GPU包括了新的Arm Immortalis-G925 GPU、Arm Mali-G725 GPU和Arm Mali-G625 GPU,它们适用于从旗舰智能手机、高端手机,到智能手表、入门级移动设备等各类消费电子设备,可为新一代AI和游戏体验提供出色的性能和效率优势,并带来无可匹敌的用户体验。

“我们看到,最近一年来,应用商店中的游戏应用收益不断攀升,更多的游戏和应用都在越来越多地采用AI。游戏内容愈发复杂,而我们正通过创新产品满足不断演进的需求,以提供新一代游戏体验。基于此,我们推出了新的Immortalis-G925 GPU,希望能为开发者和玩家带来逼真的游戏体验。”王刚如是说。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:安谋科技(Arm China)市场总监 王刚

据介绍,Immortalis-G925是Arm目前性能最强、效率最高的GPU。

与上一代产品Immortalis-G720相比,Arm终端CSS中的Immortalis-G925在各种图形应用中的性能提高了37%;在运行AI/ML网络方面,性能显著提高了36%。

与此同时,在提供与2023年参考平台相当的游戏性能时,Immortalis-G925还能节省高达30%的功耗;而在对复杂对象进行光线追踪,其性能更是提升了高达52%。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Immortalis-G925整体性能提升

另外,在Arm新推出的GPU中,着色器核心的数量均已扩展。其中,Immortalis-G925可配置10个以上的核心,适用于旗舰智能手机等高性能消费技术市场;Mali-G725则可在6-9个核心之间扩展,主要针对高端手机市场;而Mali-G625可在1-5个核心之间扩展,适用于智能手表和入门级移动设备。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:Immortalis-G925、Mali-G725和Mali-G625的核心数

“总的来说,Immortalis-G925出色的游戏和AI性能将带领我们迈向崭新时代,为手持设备打造媲美游戏主机的图形效果以及更为智能的应用体验;而Mali-G725和Mali-G625这两款产品,则可为各类不同级别的设备带来出色的游戏体验。”王刚表示,未来随着手游和AI工作负载的不断演进,新一代Arm GPU可提供出色的性能和效率优势,带来无可匹敌的用户体验。

Arm Kleidi——助力AI开发者加速创新

作为Arm推出的另一款重磅产品,Arm Kleidi对于AI开发者的重要性不言而喻。

安谋科技(Arm China)开发者生态高级经理李陈鲁介绍,Arm Kleidi是一项广泛的软件和软件社区参与计划,其软件库包含了面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的KleidiCV。该软件库可以被直接嵌入到热门的AI框架中,开发者无需进行任何操作,即可轻松启用Arm CPU的AI功能,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。

其中,KleidiAI是为了应对设备类型、神经网络和推理引擎的爆发式增长而推出的解决方案,由一系列高度优化的AI内核组成,可在生成式AI等用例中实现高性能。KleidiAI的最大优势在于能够大大降低开发者的门槛,不会给他们额外增加工作量,而是直接与领先的AI框架合作,包括MediaPipe(通过XNNPACK)、LLAMA.cpp、PyTorch(通过ExecuTorch)和TensorFlow Lite(通过XNNPACK),以集成KleidiAI。这不仅加快了开发流程,还充分释放了AI性能,使开发者能够顺利地打造出色的AI体验。

而KleidiCV是计算机视觉算法的集大成者,可以对其带来显而易见的巨大性能提升。据官方介绍,OpenCV是全球最大的计算机视觉库,里面包含了2500多种算法,为数十万开发者提供支持。而基于KleidiCV集成,OpenCV发现各种图像处理任务的典型性能提升了高达75%。

总之,Arm Kleidi有助于在使用Arm CPU的各种地方加速机器学习。这一软件库的推出,再次突显了Arm作为端侧生成式AI计算平台的领先地位。

以AI驱动创“芯”体验,Arm多款新品重磅来袭!

图:安谋科技(Arm China)开发者生态高级经理 李陈鲁

可以预见,在AI时代下,万亿级参数大模型正在不断涌现,多样性算力需求也将逐年增长。凭借上述产品的出色性能表现,以及Arm架构的强大实力和领先能力,下一代AI体验势必将会迎来重大变革。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

虽然AI行业发展热潮一直在为旧金山的房地产行业注入活力,但仍然难以帮助该市场解决当前的挑战与困境。

关键字: AI 商业地产 旧金山办公室

2018年,谷歌展示了令人印象深刻的Duplex技术,这是一种经过训练的AI语音系统,可以拨打简短电话和进行预约。Duplex可以像人类一样说话,并使用“嗯”和“哦”等停顿词,它可以成功地参与真实对话,帮助预订晚餐和理发...

关键字: AI 机器人

根据Hitachi Vantara和Enterprise Strategy Group日前对全球IT领导者进行的一项调查,尽管许多公司对AI的到来感到准备不足,但采用生成式人工智能(GenAI)的热情仍在持续。

关键字: GenAI IT AI

南京2024年7月15日 /美通社/ -- 盛夏时节,每个家庭都迎来了用水高峰。除了每日固定的洗浴之外,全家人无时无刻的饮水需求自不必言,而厨房更是成为了家庭中的"水处理中心"——从洗菜、煮饭、煲汤,再到清洗碗筷,几乎每...

关键字: AI LINK 洗碗机 串联

7月15日消息,据媒体报道,谷歌母公司Alphabet正筹划其历史上最大规模的一笔收购,目标是网络安全领域的明星初创公司Wiz Inc.,交易总额可能高达230亿美元。

关键字: 谷歌 AI 芯片 半导体

西门子数字化工业软件日前宣布为其产品工程软件 NX™ 推出多项新功能。作为西门子 Xcelerator 的解决方案组合的一部分,NX 的增强功能旨在帮助各行各业的设计人员和制造企业以更快的速度向市场交付更好、更优化的产品...

关键字: AI 半导体

7月12日消息,据媒体报道,微软公司近期成功研发了一款名为VALL-E2的革命性AI语音生成技术,该技术的问世标志着AI语音合成领域的一个重大突破。仅需短短三秒钟的音频样本,VALL-E2便能以前所未有的精确度与自然度,...

关键字: AI ChatGPT 人工智能

7月11日消息,近日在信通院组织的可信AI汽车大模型首轮评估中,华为云盘古汽车大模型顺利完成了评估,获得4+级证书,成为国内首批通过该项评估并获得当前最高评级的行业大模型。

关键字: AI ChatGPT 人工智能

7月11日消息,据媒体报道,脑机接口创业公司Neuralink的创始人埃隆·马斯克表示,该公司计划在一周左右的时间内将其设备植入第二位人类试验患者体内。

关键字: 马斯克 AI 特斯拉 GPU

今年,澳鹏Appen(中国)很荣幸携技术驱动的双平台再次重磅亮相2024世界人工智能大会(WAIC 2024),展示如何以专业、精准、安全的高质量训练数据赋能AI+,助力各行业、各领域AI模型的高效开发和落地。

关键字: AI 人工智能
关闭