原创

助力数据中心提升关键负载的每瓦性能——Arm发布新一代Neoverse N3、V3及计算子系统（CSS）

时间：2024-03-01 17:51:00

关键字： ARM 服务器 AI Neoverse CSS

手机看文章

扫描二维码
随时随地手机看文章

[导读]随着通用人工智能的发展，数据中心的计算需求逐步提高。针对多模态数据、大模型的推理和训练需要更高的算力支持，而随着算力提升与之而来的还需更关注在功耗方面的优化。对于头部云计算和服务厂商而言，针对专门用例提高每瓦性能变得至关重要。而这就需要其在CPU的IP微架构层面就开始着手优化设计，且需要极高的灵活性和丰厚的软件生态能力。Arm Neoverse系列正是迎合了这部分技术发展趋势，自推出至今，已经获得了诸多头部云服务厂商的认可，基于Neoverse推出的定制服务器CPU也帮助云服务客户获得了更具效益的计算服务。而在近日，Arm又推出了其全新的新一代Arm Neoverse N3和Arm Neoverse V3，并且同步提供了Arm Neoverse CSS N3和Arm Neoverse CSS V3；这也是Arm首次提供基于高性能的Neoverse V系列的计算子系统。

随着通用人工智能的发展，数据中心的计算需求逐步提高。针对多模态数据、大模型的推理和训练需要更高的算力支持，而随着算力提升与之而来的还需更关注在功耗方面的优化。对于头部云计算和服务厂商而言，针对专门用例提高每瓦性能变得至关重要。而这就需要其在CPU的IP微架构层面就开始着手优化设计，且需要极高的灵活性和丰厚的软件生态能力。Arm Neoverse系列正是迎合了这部分技术发展趋势，自推出至今，已经获得了诸多头部云服务厂商的认可，基于Neoverse推出的定制服务器CPU也帮助云服务客户获得了更具效益的计算服务。而在近日，Arm又推出了其全新的新一代Arm Neoverse N3和Arm Neoverse V3，并且同步提供了Arm Neoverse CSS N3和Arm Neoverse CSS V3；这也是Arm首次提供基于高性能的Neoverse V系列的计算子系统。

云计算基础设施领域：通过定制芯片支持云计算关键负载优化

据Arm 基础设施事业部产品解决方案副总裁Dermot O’Driscoll介绍，当前基础设施领域正在发生颠覆性的变化，头部企业正在通过打造定制芯片，来支持云计算在关键工作负载中的计算优化。头部云计算厂商关注的性能提升非常极致，期望获得的是最佳的每瓦性能。他们对于自己的数据中心、计算设备及运行其中的工作负载非常熟悉，正在尝试对基础设施的每一层都进行优化，从而让多样化的工作负载获得最佳性能，以期实现每瓦性能的提升。

这种来自不同用例、不同工作负载的每瓦性能，无法通过一个统一的基准测试来量化比较，而是需要针对这些多样性的用例来专门调校。过去软件和硬件分别是来自不同公司开发，这种传统的模式显然已无法实现对于特定用例特定负载的每瓦性能调校；云服务厂商希望能够在硬件的微架构层面，就开展软硬件的协同开发，实现紧密耦合，从而确保自身的软硬件适配得以顺利进行。这种联合优化，需要一个开放的灵活的CPU的IP平台，并且软硬件双方都需要做出巨大的投入。

而谈到通过定制计算来满足这种微架构层面的软硬件协同优化，就不得不提到Arm Neoverse平台。通过Arm的努力，当前这种基础设施中的协同设计已经不仅仅局限于 CPU，还能扩展到平台级别进行内存和 I/O的调优，进一步优化 TCO。

去年，Arm在Neoverse平台的产品线扩展出计算子系统（CSS），首款产品为Neoverse CSS N2。这是一套完整验证和优化的计算子系统，兼顾了各种关键用例的配置优化，可大大缩短了客户的开发流程，让其可以轻松实现芯片栈的管理，使其免于各类IP的复杂选择和组合，而是专注于软件调优和定制加速这些能够形成差异化竞争力的部分。

“计算正越来越专用化，通用CPU已不再能满足需求。在基础设施领域，我们看到的转型持续朝向更复杂的仓库级计算，它不再只关乎芯片、服务器或机架，而是关乎整个数据中心。”Arm高级副总裁兼基础设施事业部总经理 Mohamed Awad分享到，“借助 Neoverse CSS，Arm正在助力合作伙伴加快创新步伐。凭借新的Arm Neoverse CSS N3和CSS V3，我们专注于释放芯粒等新技术的潜力，并更大限度地优化实际工作负载的 TCO，这对于包括 AI、数据库、网络等在内的整个基础设施的生态系统至关重要。”

第三代Arm Neoverse：构建高性能IP计算子系统，提高AI应用关键负载的计算效能

不断地迭代提升，实现卓越性能，是ArmNeoverse的成功要素之一。而在第三代平台上，我们也看到了非常大的提升。

据官方介绍，相较Neoverse N2，Neoverse N3可在多种工作负载下实现20%的每瓦效能效率提升；而且Neoverse N3配备了2MB L2级缓存的选项，在机器学习工作负载上的性能提升了三倍。而CSS N3正是基于新的Neoverse N3 核心打造，为新的N系列引入了Armv9.2功能，每个核心都具备了2MB的专用L2 缓存，并支持最新的PCIe和CXL I/O标准以及UCIe芯粒标准。CSS N3的首个实例可提供32核配置，热设计功耗 (TDP) 低至40W。此外CSS N3的可扩展性非常强，可覆盖电信、网络和DPU等一系列应用。

而Arm Neoverse V3 CPU则是专门针对云端应用、高效能运算(HPC) 和机器学习(ML) 工作负载提供最高效能计算。Arm Neoverse V3系列支持高性能浮点和向量指令，具有SVE/SVE2、Bfloat16和Int8 MatMul等功能；L2级缓存达到了3MB；支持Arm机密计算架构，可在内存中实现数据完全加密。而基于Neoverse V3而来的计算子系统——CSS V3，在单芯片上最多可扩展至128核，并支持最新的高速内存和I/O标准。

据Dermot O’Driscoll介绍，相较于前一代Neoverse平台，新一代的Neoverse N3和V3在各种关键工作负载下都实现了全面的提升。“N 系列在压缩方面取得了性能优势，可降低云服务运营商的成本，并最终降低云服务客户的成本。同样地，V 系列显著提高了协议缓冲区的性能，这是在数据中心内传输数据的一项关键功能。”

而令人关注的是，在AI数据分析 (AI data analytics)这一项中新一代Neoverse的提升显著。而这种显著的提升来自Neoverse在微架构层面针对XGBoost算法的适配优化，通过分析合作伙伴的关键工作负载核心的特定关键任务算法，Arm能够明确并实施对提升性能最有效的微架构调整方法：这包括改进分支预测、更好地管理最后一级缓存和相关内存带宽、以及大幅增加 L2 缓存等一系列微架构调优等等，最终让Neoverse N3相比上一代在AI数据分析工作负载上提升高达196%。

而针对这两年热门的生成式AI应用，目前行业的重点更多放在大语言模型（LLM）的训练上；然而随着生成式 AI 广泛应用于实际业务场景，其计算的工作重点将转向推理。这一转变意味着要找到合适的模型和模型配置并加以训练，然后将其部署到更具成本效益的计算基础设施上。而Arm的Neoverse系列CPU则具备满足这一转变的优势，包括：非常优异的Token生成吞吐量表现；非常高的灵活度，可以适配更多工作负载；易于部署，并可支持各种软件框架；具备低成本和高能效等优势。Dermot O’Driscoll表示，“CPU推理将是生成式AI计算应用的关键组成。目前可以看到这些工作负载已从ML专用的Neoverse功能（如 Bfloat16、MatMul、SVE 和 SVE2）的微架构优化中受益，而且这一趋势还将继续。”

释放芯粒的潜力，实现加速器和CPU紧密耦合

显然为了实现更好的特定任务的计算效能，将所有的计算任务都通过CPU来运行并不是最佳选择；而通过特定的AI加速器来实现特定计算加速会是一种更常见的做法。据统计，当前布局在AI加速器领域的公司已经接近80家。最引人注目的当属英伟达的Grace Hopper超级芯片，该芯片不仅利用了领先的 Hopper GPU，同时也使用了基于 Neoverse V2平台的紧耦合计算芯粒 Grace，实现了内存容量和共享内存模式。这种紧耦合的CPU加上加速器配置，对大参数 LLM 非常有益，对检索-增强-生成 (RAG) 等新兴方法也很有帮助。

通过通用计算芯粒+AI加速器的配置，来打造适合特定业务的专用AI计算芯片，已经成为了业界的趋势。通过芯粒技术，可以让芯片公司在单一芯片上实现多种不同工艺节点芯粒的组合，例如使用较旧的工艺节点处理 I/O，同时搭配先进的工艺节点处理逻辑功能，从而实现更高性能和更高能效表现、同时兼顾更高良率的AI计算芯片。

但将不同的芯粒组合在一起，面临着诸多的挑战，例如物理层的兼容性问题、协议层的打通、包括系统架构层面的电源管理、内存访问和安全等等一系列的问题。要将多个芯粒组合在一起构成一个可互操作的系统，就需要在生态系统的层面做出一致的努力。

而Arm正在致力于推动构建一个功能强大、支持通用的芯粒生态系统。在其近期发布的芯粒系统架构 (Chiplet System Architecture, CSA) 中，Arm联手了业内20多家合作伙伴，旨在简化基于CSS打造的计算芯粒与AI加速器并行使用的联合设计过程，进而推动整个Arm生态系统释放芯粒技术的潜力。

而CSA的成功构建的背后，离不开来自Arm全面设计（Arm Total Design）这一强大的生态的支持。据Arm基础设施事业部营销副总裁Eddie Ramirez介绍，Arm 全面设计已经有20多家成员加入，其中包括新的EDA和配套IP提供商，以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴。Arm目前正在与三家主要代工厂展开积极合作，以确保其CSS产品能在其先进工艺节点上进行优化。客户的定制芯片的成功离不开可靠供应链的支持，而Arm能够给这些客户提供多样的技术和选择。

像Socionext已经宣布将会推出基于台积电领先的2nm工艺开发的Neoverse CSS V3芯粒，这款配置 32 核的芯粒可与其他芯粒结合使用，能够实现经济高效的可拓展计算方案。

通过Arm全面设计和CSA，Arm正在将帮助客户将最先进的工艺、EDA工具、多种IP组合、芯粒互连和基础软件等技术和资源整合在一起，来帮助客户实现一站式的AI计算芯片的设计、制造和应用。

Mohamed Awad强调到，随着越来越多的 AI 工作负载被采用，并贯穿于整个计算流程，涵盖从大型数据中心到网络、服务器以及计算基础设施的方方面面。Neoverse V3和N3提供了支撑这一转型所需的计算性能和效率，而在Arm全面设计生态项目的支持下，Arm的Neoverse计算子系统能够加速客户的产品上市时间，并加大对创新的投资力度。“将卓越性能、灵活性以及生态系统这三大要素结合在一起，是Arm Neoverse的独特之处，也是其能够在过去几年中取得成功的原因。Arm Neoverse 计算子系统将这些优势演绎得淋漓尽致。在过去的一年里，CSS 取得了显著的进展，广受头部云服务提供商和初创公司的青睐。这些例证都很好地诠释了Arm 平台是未来计算及 AI 的基石。”