当前位置:首页 > 原创 > 刘岩轩
[导读]有移动计算的地方,就有Arm的存在。而Arm架构不断创新也与移动计算的需求发展紧密绑定在了一起。近年来,计算需求变得日益复杂,Arm也从2021年开始推出全面计算解决方案(TCS:Total Compute Solutions)。通过一整套专为无缝协同工作而设计的IP组合,Arm TCS极大地降低了SoC设计复杂度,帮助SoC设计者将计算性能进一步提高。

有移动计算的地方,就有Arm的存在。而Arm架构不断创新也与移动计算的需求发展紧密绑定在了一起。近年来,计算需求变得日益复杂,Arm也从2021年开始推出全面计算解决方案(TCS:Total Compute Solutions)。通过一整套专为无缝协同工作而设计的IP组合,Arm TCS极大地降低了SoC设计复杂度,帮助SoC设计者将计算性能进一步提高。

于近期在北京举行的Arm技术媒体分享日上,多位Arm技术大咖现身为记者讲解了Arm 2023全面计算解决方案(TCS23),包括最新的CPUGPU、软件及安全产品。


全新Armv9.2架构的CPU:Cortex-X4、Cortex-A720和Cortex-A520

在CPU集群方面,超大核、大核和小核都进行了全面更新,采用了最新的Armv9.2架构。先看超大核,这一最初从定制项目中诞生的产品,目前已经更新到了Cortex-X4。

Cortex-X4连续第四年实现了较上一代双位数性能提升,与上一代安卓旗舰产品相比较提升15%,具备更高的可伸缩性,最高可以支持每个核2M的2级缓存。同时值得一提的是,这一超大核不仅是性能最强,同时也是最为高效、面积效率比最高的Cortex核产品。

Cortex-A720对比于 Cortex-A715在高效方面实现了20%的提升,能够支持手机在多线程的应用处理方面具备更好的续航表现。此外,Cortex-A720在面积配置性方面还做了一个扩展,能满足各种不同档次的手机市场。

Cortex-A520与Cortex-A510比较,在能效方面实现了22%的提升。尤其针对于低密度背景任务而言,能有效延迟电池的续航时间。这也是Arm封装尺寸最小的一款Cortex产品,非常适用于入门级移动终端设备。

可以看到,今年Arm将所有CPU的架构都升级到了Armv9.2,从而在性能、能效和安全性上实现了全面的跃升,并且标志着Arm全面推动移动计算生态进入64位时代。

据Arm 终端事业部产品管理总监 Saurabh Pradhan介绍,Arrmv9.2架构支撑了从安全到机器学习一系列的功能,这也是安卓全线的高端机都使用这个架构芯片的原因。该架构中两个重要的技术,一个是 MTE,一个是指针验证技术。Arm在进行Armv9 开发时的重点,就是要提升开发者的体验。比如其中一个 SVE2,即可伸缩矢量扩展,它能够帮助开发者进行编程平台的复用;另有一个非常知名的内容社区应用表明在使用 MTE 后能够检测到 90% 的内存安全漏洞。

作为全面解决方案,仅仅提供三个IP核是不够的。Arm也提供了将超大核、大核和小核灵活地组合在一起,具有高效IPC的异构多核设计集群,即DSU。

今年最新的DSU-120实现了三方面的提升:第一是可伸缩性,在一个集群中最小可以配置一个小核,最大可以支持高达14核的数量,同时能够支持24M或者最高32M的3级缓存,支持笔记本之类的设备场景。第二个提升体现在PPA 上,进一步降低了漏电,同时支持更多新的电源模式,从而延长了电池寿命。第三是全新的一些功能,因为基于最新的Armv9.2的架构,所以能够支持比如带宽分区、节点最大化和纳入一些新的接口。


第五代Arm GPU:Immortalis-G720、Mali-G720和Mail-G620

从Immortalis-G715开始,Arm将光追和VRS引入到了移动领域,目前在最新的旗舰安卓手机中,仍处于领先的地位。但在GPU方面,Arm的创新脚步并不会停歇。TCS23中的GPU已经不再采用Vhall架构,而是采用了全新的第五代GPU架构。全新的第五代架构不仅是 GPU 本身能够提供最佳的性能,同时GPU与外部内存、CPU系统级缓存在执行中也能实现最佳性能。全新的Immortalis-G720、Mali-G720和MailG620将奠定Arm第五代GPU架构的基础,并为游戏体验引入新的功能。

相比上一代,在采用相同DRAM配置和芯片工艺完全一致的情况下,仅通过IP层级的创新,全新G720就带来全面系统级的效率提升,包括:使用内存带宽最终减少40%,每瓦特性能平均节省 15%,峰值性能实现了平均15%的增加,整个架构的吞吐量实现1倍的增加,达到了64Bbp。

在Immortalis-G720上,Arm带来了更多新的功能。首先是延迟顶点着色(简称 DVS),这是全新的渲染管线,彻底解决了集合数据流的问题,有助于在用到最复杂的场景时保持帧率的一致性。DVS大幅减少了外部带宽的消耗,节省的带宽也就意味着更多功耗的减少,从而提高了能效。

“考虑到越来越多的图形几何体的数量,以及越来越多大型复杂的游戏的应用运行,这意味着GPU比以往更需要大内存带宽。而Arm通过在系统级的带宽的需求上降低40%,从而能够保障像图形处理方面的复杂应用不受到内存带宽的限制。”Arm 终端事业部产品管理高级总监Anand Patel解释到,“通常在一个移动系统之上,它的内存带宽是固定的,例如60M/S等;如果把它降低40%的话,就意味着能节约出来很多功率用于更加复杂的功能实现。”

在移动光追方面,Arm将RTU单元集成到了着色器内部,通过与执行引擎紧密配合,保证 RTU 在多核架构中能实现规模化的运转。同时针对光追功能还有功耗方面的优化,通过把光线追踪单元移到自己的电源区,确保在不使用光线追踪功能,整个电源部分可以被关闭,从而节省了这一部分漏电流所耗费的功耗。

对于GPU的应用工程师而言,开发工具尤为重要。在开发工具方面,Arm Mobile Studio中提供了免费的GPU工具,可以帮助开发者针对Arm GPU进行优化,从而实现开箱即用的出色性能。该工具提供的功能包括profilers 数据分析器、事件追踪、计数器、着色器分析和图形API调试等。


MTE、PAC 和 BTI:Armv9的基础安全性能

64位架构能够带来更高的安全性和性能,因此Arm一直在推动64位生态的发展。而在此次TCS23推出之际,也标志着Arm从Armv9.2开始将移动计算架构全面推动转向64位生态。

在新的Armv9.2中,提供了更为丰富的安全功能。除了MTE之外,还有最新的PAC和BTI技术。

MTE即内存标记扩展,这一功能在Armv8.5的时候开始引入,目前在Armv9.2上更是成为了其基础性能,也是64 位架构和应用未来的趋势。Arm实现的MTE为两阶段系统,即“锁”和“密钥”。如果密钥匹配,则允许访问锁内存;否则,访问可能会被记录下来或出错。这样就可以更轻松地检测到难以捕获的内存安全错误,也有助于进行常规调试。在锁和密钥两阶段系统中,存在两种类型的标记:

地址标记,用作密钥。这将在进程中每个指针的最高位增加四位。地址标记仅适用于64位应用,因为它使用了“高字节忽略”功能,这是Arm64位的一个功能。

内存标记,用作锁。内存标记也由四位组成,与应用内存空间中每个对齐的16字节区域相连接。Arm 将这些16字节区域称为标记颗粒。这四位并不用于应用数据,而且是分开存储。

“攻击者永远在增强自己的攻击方式和想法,所以我们必须要做到所谓的关键信息。”Arm终端事业部软件战略总监卢旻盛分享到,“TrustZone和虚拟化等很多隔离技术它的原理是在于怎么样能够防止攻击者看到你所保护的东西,这是它的架构原理。 而MTE的软件安全技术,是从减少软件漏洞被利用的原理出发。采用锁和密钥两阶段系统,基本上从原理出发就可以防止空间和时间型的信息安全风险。虽然攻击者可以看到这个软件,但是其实也防止了被入侵的一系列漏洞:第一是开发流程的漏洞,第二现有漏洞可以被更加早被发现,第三防止这个漏洞被利用。所以MTE和TrustZone两项技术是互补型的方式。”

PAC和BTI则是在 Armv9内核中首次推出的功能,两者联合使用的情况下,攻击者就很难将现有的代码片段用于不法手段。即使攻击者找到了覆盖一个指针的方法,但也难以用它真正覆盖任何代码。BTI 可以保护程序不跳转到内存中未经授权的地址,每一个函数被调用时,连接寄存器就会被清零,所以在函数反馈之前会重新检查签名是否有效,如果有人以某种方式修改了地址,则认证无法通过。

Arm 终端事业部生态系统及工程高级总监Geraint North表示,“不管开发者的代码是按C、C#、Rust 还是从 JIT发出的代码,用 PAC、BTI 进行保护,就可以减少攻击者在突破沙盒后可以访问的代码足迹,因此就能提供最大限度的保护。”


从TCS23开始,全面迈向64位生态

虽然全面64位架构的好处颇多,但从32位向64位的生态迁移已经用了很长的时间。早在10多年前,Arm就已经推出了第一款具有64位功能的CPU,并且在安卓生态中很好地得到了反馈。但之后32位和64位一直处在并存发展的过程中,而去年谷歌Pixel手机推出仅支持64位的配置,则意味着整个过渡即将结束。Arm也是非常果断地在Armv9.2架构开始,全面支持64位生态。“最新的这些IP都是仅支持 64 位的,它们的性能提升将会更快。因为一方面在硬件上我们会在64位的IP设计上投注更多的精力;另一方面在软件上,Arm的编译器和库优化团队,都把工作重点聚焦在 64 位上。”Geraint North说到,“如果现在你还是在做 32 位的开发,那么我们做的这些工作可能就不能够为你提供赋能。”

长期以来,推广64位生态的难点在于中国的软件生态的分化程度更高。在中国有更多的基于安卓系统而来的OS和多种应用商店,要推动所有的软件转向64位架构并不容易。而Arm选择通过与中国顶级OEM的合作方式,来加速这一转型。

目前大部分中国的应用商店已经给出了明确的期限,来催促软件开发者尽快升级其应用程序到64位版本。目前在中国所有应用软件中64位的采用率远超过90%,尤其是观察排名前1000或前100的应用普及率的时候,64位的普及率几乎是 100%。

而在安卓智能手机之外,Arm也继续将目光投向更大的市场。像智能电视、机顶盒等领域,也有望推动其进入64位生态。

“我们已经在纯64位之路努力多年。好消息是,迁移到64位系统的任务已经完成。去年,Pixel 7推出了一款纯 64 位应用程序的操作系统,MediaTek 也推出了第一款全64位的安卓SoC,这个芯片目前被多款高端手机采用。”Arm产品营销副总裁Ian Smythe表示,“Arm 所发布的全新的TCS23是针对移动计算的最优选的计算平台,它包括了最尖端的CPU技术和GPU技术,能够让游戏开发者以及人工智能应用开发者实现沉浸式体验的打造。”

图:Arm产品营销副总裁Ian Smythe

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

利用LogiCoA™微控制器,以更低功耗实现与全数字控制电源同等的功能

关键字: 微控制器 电源 CPU

北京——2024年4月25日 我们的客户选择亚马逊云科技运行他们的关键应用程序和最敏感的数据。每天,世界上发展最快的初创公司、最大的企业和最值得信赖的政府机构都选择亚马逊云科技作为技术基础设施平台。他们之所以选择亚马逊云...

关键字: GPU 计算 生成式AI

据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。

关键字: 软银 英伟达 GPU AI

4月24日消息,特斯拉CEO马斯克在最近的财报电话会议上透露,特斯拉的Optimus人形机器人预计将在今年底前具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这一消息引发了业界和公众的广泛关注。

关键字: 马斯克 AI 特斯拉 GPU

Arm CPU正在从根本上推动AI变革,并造福地球。Arm架构是未来AI计算的基石。​

关键字: ARM AI

近日媒体Business Insider透露称,微软目前正在疯狂囤货GPU,目标在2024年12月前达到180万片。微软本次采购的 GPU 主要来自英伟达公司,不过微软也计划采购 AMD 等其它公司的 GPU 进行扩充。

关键字: 微软 GPU

近日,Arm推出了Arm® Ethos™-U85神经网络处理器(NPU)和Arm Corstone™-320物联网参考设计平台,旨在满足海量的数据处理和大规模计算,加速推进边缘AI的发展进程。

关键字: ARM

2024年4月18日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 代理商贸泽电子 (Mouser Electronics) 很荣幸地宣布与Edge Impulse建立新的全球合作关系。Edge Im...

关键字: 机器学习 MCU CPU

无论您是在研究如何使用 10GigE 还是寻求所需考虑事项的建议,本文均提供有实践,帮助确保单相机 10GigE 视觉系统设置顺利并拥有良好性能。 我们列出了主机系统配置、布线和相机设置的实践。

关键字: 视觉系统 CPU 存储器

Apr. 16, 2024 ---- NVIDIA新一代平台Blackwell,包含B系列GPU及整合NVIDIA自家Grace Arm CPU的GB200等。TrendForce集邦咨询指出,GB200的前一代为GH2...

关键字: CPU GPU
关闭