加速主机连接，解锁更高内存带宽｜全新第二代 AMD Versal™ Premium 系列自适应SoC赋能大计算量和高密度计算场景

时间：2024-11-13 19:23:30

手机看文章

扫描二维码
随时随地手机看文章

[导读]在现代计算领域，数据量的激增、带宽需求的提升以及传输效率的优化，正在推动存储与主机连接技术的迅速发展，安全威胁也因此日益加剧。人工智能（AI）的快速普及进一步加速了这一趋势，对计算架构提出了前所未有的严苛要求。

在现代计算领域，数据量的激增、带宽需求的提升以及传输效率的优化，正在推动存储与主机连接技术的迅速发展，安全威胁也因此日益加剧。人工智能（AI）的快速普及进一步加速了这一趋势，对计算架构提出了前所未有的严苛要求。

而在计算架构的演进过程中，内存和存储标准和技术也在不断发展。DDR5已成为主流DRAM标准，预计将在未来几年继续主导市场。同时，CXL（Compute Express Link）作为连接存储与主机的创新技术，正以212%的年均复合增长率快速普及。如今，约半数服务器已支持CXL技术，预计到2029年这一比例将接近100%，大大增强了数据中心的内存扩展能力与资源共享灵活性。

为更好地满足高数据量、高带宽和低延迟的计算需求，AMD重磅推出了第二代AMD Versal™ Premium系列。该系列基于最新的技术架构，支持PCIe Gen6、LPDDR5X和CXL 3.0等前沿连接技术，专为数据密集型和计算密集型应用设计，为高性能计算和智能应用提供了坚实的技术支柱，推动行业迈向更高效、更智能的未来。

近日AMD召开了第二代AMD Versal™ Premium系列自适应SoC的新品发布会，AMD自适应与嵌入式计算事业部( AECG) Versal产品营销总监Manuel Uhm，AMD自适应和嵌入式计算事业部( AECG) 高级产品线经理Mike Rather两位发言人进行了精彩的分享。

据悉，第二代AMD Versal Premium系列产品是基于已经生产一年的第一代产品，在其极限硬IP的基础上进行了进一步的新标准和技术扩充，尤其是在针对I/O、收发器以及存储/内存的控制器、主机的接口方面，AMD都带来了一系列创新。

透过对PCIe Gen 6规范，以及CXL3.1规范，第二代进一步加速了主机连接；用LPDDR5X和DDR5以及CXL存储器扩展模块，更快地释放更多内存。同时也通过IDE、DDR加密和400G的高速加密引擎来确保了各种用例中的数据安全性。

Manuel表示，第一代Versal Premium系列产品更多关注的是加速网络，在高安全性、高通量和带宽的情况下加速网络。而随着大语言模型的兴起，数据中心需要更多的内存来支持。因此第二代中增加了CXL内存的分享和池化的技术。

“第二代AMD Versal™ Premium最好的理解就是它是在助力计算，主要是通过更好地来管理系统的内存，因为这方面正是现在人工智能模型以及各种数据集成最需要的。”Manuel解释到。同时他也强调，第二代是为了适配新的应用，而非取代第一代。Mike也补充道，两者目标市场会有一定重合，但两代产品将会是同时进行推广。

加速主机连接：高端应用的性能跃升与资源优化之道

加速主机连接在高端应用中至关重要，它为数据密集型和计算密集型任务提供了更高的带宽和更低的延迟，从而满足AI训练、大数据分析、5G通信、自动驾驶等场景的苛刻需求。高速连接如PCIe Gen6和CXL 3.1，使主机与加速器之间的数据传输更加顺畅，有效减少数据搬运的瓶颈，支持多种加速器的异构计算，提升系统的资源利用率和能效。此外，CXL协议还允许内存共享，提升计算资源的灵活性；硬件级的加密模块则保障了数据传输的安全性。因此，加速主机连接技术不仅提高了高端应用的性能和实时性，也为数据安全和资源优化提供了有力支持，成为数据中心、云计算等领域不可或缺的基础。

据悉，AMD Versal™ Premium自适应SoC与AMD EPYC™ CPU之间能够实现深度协同，通过PCIe Express接口构建起高效的数据通道，为计算、网络和存储任务的卸载提供卓越的性能支持。借助这一高速连接，Versal Premium与EPYC处理器实现了流畅的内存空间共享，减少了内存冗余的占用，从而提高了资源利用效率。此外，PCIe IDE和DRAM加密技术为整个数据传输过程提供了端到端的安全保障，确保数据的完整性与保密性，满足高安全性需求的应用场景。

值得一提的是，在第二代AMD Versal Premium系列中，创新性的GTM2收发器为系统性能再添助力。GTM2集成了上一代产品中的GTM和GTM1收发器，支持1.25 Gb/s至128 Gb/s的广泛数据速率，并兼容NRZ与PAM4编码格式。与此同时，GTM2延续了上一代成熟的设计流程，使开发者能够轻松上手，并在系统的各个阶段确保高度的可靠性。这一新型收发器的引入，进一步强化了Versal Premium的高速数据传输能力，为开发者带来了可靠、灵活且强大的解决方案。

解锁更多内存：升级到DDR5/LPDDR5X，支持CXL® 3.1拓展

在内存方面，第二代AMD Versal™ Premium系列实现了对DDR5和LPDDR5的支持，因此数据速率达到了第一代产品DDR4和LPDDR4的两倍。此外，与DDR4和LPDDR4相比，DDR5和LPDDR5的功耗降低了20%到30%。为了进一步保障内存安全，在第二代Versal Premium还增加了硬内联ECC和加密功能。

同时，AMD还在新品中引入了支持CXL 3.1的存储器扩展模块，可以灵活扩展内存容量，并与多家DRAM供应商实现兼容。例如，使用LPDDR5X内存时可以实现高达256比特的传输带宽，通过两个8通道CXL连接，速率可达64 Gb/s，从外部存储器获取的带宽超过500 Gb/s，为高效数据处理提供了强大的支持。

增强数据安全：端到端安全架构和400G高速加密引擎

AMD最新的Versal Premium系列通过端到端的数据安全机制，实现了对数据传输、存储和使用过程的全面保护。在传输过程中，PCIe IDE和高速加密引擎对数据进行加密，确保数据在公共或专用网络中的安全传输；在静态存储方面，DDR内联加密与ECC技术为存储中的非活动数据提供了有效的加密保护，防止数据被篡改或泄露；在数据使用过程中，通过RAM内存中的加密保障，确保数据在实时计算中不受攻击。这一完整的端到端安全架构，满足了现代高端应用对数据安全的严苛需求。

此外，Versal Premium系列的400G高速加密引擎为高带宽和高安全性场景提供了强大的支持。该引擎具备高达800 Gb/s的吞吐量，采用AES-GCM-256/128算法进行加密和解密，并支持从40x10G到1x400G的多种通道配置，适应不同的网络需求。同时，它还兼容MACsec和IPsec协议，其中MACsec适用于保护端到端或共享的以太网链路，常用于广域网（WAN）和数据中心互联（DCI）；IPsec则保障了IP网络的连接安全，适用于VPN等场景。通过集成这些先进的安全技术，Versal Premium系列为数据中心、云计算和高性能网络应用提供了灵活且可靠的安全解决方案。

高带宽与灵活扩展，赋能大数据量及高级算密度场景

通过进一步提升了系统的带宽、扩展性和灵活性，第二代AMD Versal™ Premium系列更适用于大数据量以及高计算密度的应用场景，包括数据中心、通信、测试与测量等。

首先，该系列通过支持CXL 3.1协议，提供了强大的内存扩展和高性能内存接口。在数据中心，CXL内存池和单节点（如下图中所示的多个机架）通过高带宽的交换结构连接，实现了各机架之间的资源共享和统一管理。

CXL 3.1采用PCIe Gen6技术，与CXL 2.0相比，具备两倍带宽，并通过NUMA架构实现与现有软件的轻松集成。Versal Premium在操作模式上支持CXL.io、CXL.mem和CXL.cache三种模式，提供全面的内存管理功能。在器件模式下，Versal Premium可以作为内存控制器运行，同时在主机模式下可连接CXL扩展模块，以实现系统的灵活扩展。此外，Versal Premium还支持多主机单逻辑设备（MH-SLD）架构和系统可组合性，为多主机共享资源提供了硬件支持。

在高性能GPU集群与自适应网络方面，第二代Versal Premium系列也展现了卓越的带宽与灵活性。随着越来越多的客户购买并部署大规模GPU集群，传统的网络接口往往难以满足其性能与扩展需求。而第二代Versal Premium通过单个网络适配器支持两个400G接口，显著提升了GPU集群的数据传输能力，确保其在复杂计算场景中的稳定性与高效性。这一功能此前在Virtex UltraScale+和第一代Versal Premium中已有应用，而第二代Versal Premium在带宽支持和集群灵活性上更进一步。

在测试与测量领域，第二代Versal Premium也有广泛应用。随着PCIe Gen7标准的开发逐步推进，分析器、控制器和练习器等相关测试设备需要支持高达128 Gb/s的数据传输速率，对收发器性能提出了极高要求。第二代Versal Premium不仅集成了高效的DSP引擎和内存带宽，还支持多种重要的接口协议，包括C-PHY和D-PHY，满足了测试设备制造商的严苛需求。这一架构设计使Versal Premium在支持先进协议和高带宽测试需求方面具备独特的优势，为下一代高速接口的开发与测试提供了理想的解决方案。

---

据悉，第二代AMD Versal™ Premium系列提供四种不同型号，逻辑单元从140万到330万不等，包含3300到7600个DSP引擎。并集成了片上内存、内存控制器、双核A72应用处理器、双核R5F实时处理器、32至72个GTM2收发器、PCIe和CXL支持模块、100G和600G以太网MAC、400G高速加密引擎以及LDPC解码器。该系列将于2024年第四季度推出功率估算工具，2025年下半年提供完整的Vivado工具，2026年上半年发布芯片样片和开发套件，并在2026年中实现量产。