当前位置:首页 > 原创 > 刘岩轩
[导读]大数据集计算的真正限制来自网络和内存两大瓶颈,而AMD Alveo V80则能够处理掉这两大瓶颈,并且帮助客户大幅降低TCO。

为提高特定类型的计算负载,在数据中心中存在着大量的加速卡,包括GPU、FPGA和ASIC等多种不同的类型。GPU凭借着更高的并行计算能力闻名,对于深度学习和机器学习能够提供更好的效能优势;而FPGA则具备高度可编程性和可配置性,可针对特定任务进行硬件优化来显著提高性能、优化延迟并带来成本效益。

全球数据中心加速器市场预计将以24%的年增长率飞速发展,到2032年达到1300亿。这背后不仅是生成式AI的训练来推动,还包括了各类的推理场景的落地。而在像银行业的高频交易、电信行业的网络虚拟化和安全加密、医学和科研领域的大规模数据分析和实时洞见等具备大规模数据集和低延迟需求的应用中,FPGA加速卡凭借着灵活计算和低延迟的优势,通常会为计算负载带来着更好的加速表现。

近日AMD发布了其最新的基于Versal HBM自适应SoC的加速卡——AMD Alveo V80加速卡,这是其第一款面向大规模市场的加速卡产品,旨在帮助突破计算和存储密集型工作负载中的网络和内存带宽瓶颈,帮助客户实现性能最大化的同时减少功耗、占板面积和时延。


大数据集计算的真正限制——网络和内存瓶颈

一个高性能计算架构需要包含数据的输入、前级处理、主处理单元、内存和高速互联输出等多个部分,而限制整个计算加速的瓶颈,其实并不出现在计算部分。如下图所示,传统的架构中,网络的输入带宽较低,仅支持25G和100G两个通路的数据输入,这为整个计算架构带来了第一个瓶颈;而计算单元还需要和DDR进行反复的数据读写。但其实DDR内存的带宽,远低于计算单元计算带宽,这就又产生了第二个瓶颈。

网络带宽不足可能会成为整个系统性能的瓶颈,限制数据处理的速度和效率。内存速度和容量如果不足,将影响数据的快速访问和处理,尤其是在涉及大规模数据集或需要复杂计算的应用中。在这两个瓶颈的限制下,即使计算单元有着更高的计算速度、后端的PCIe和Interlaken与其他芯片有着更快的连接速度,也无法完全释放整个计算架构的真正能力。从整个架构来看,要实现数据流的管理和优化,让其保持与计算单元相匹配的快速响应。

在像高性能科学模拟、视频处理和分析、金融技术等大型计算任务中,对于网络带宽和内存瓶颈尤其敏感。网络和内存性能不足都会直接影响到任务的处理速度、系统的响应时间以及最终的输出质量。因此,在设计和部署这些应用时,优化网络和内存配置是关键。

“通过Versal HBM,也就是今天给大家介绍的Alveo V80计算加速卡,能够主要解决高性能计算工作负载的内存和网络访问方面形成瓶颈的这两个问题。“AMD 自适应和嵌入式计算事业部(AECG )高级产品线经理Shyam Chander在发布会上分享到,“V80芯片支持的工作负载非常广泛,可以从10G到800G,范围非常广泛,而且速率有所提高,能够支持不同的协议。HBM再加上其他各种Versal器件,它可以处理掉刚刚提到的瓶颈问题,所以不再需要DDR4或其他外部芯片。把安全连接再加上灵活应变的计算,再加上HBM,我们可以帮助用户实现性能的最大化,同时减少功耗、占板面积以及时延。”


Alveo V80加速卡:灵活硬件加速和低时延处理

Alveo V80加速卡上搭载的加速芯片是来自AMD的一颗7nm Versal系列自适应SoC,其中包含了260万LUT可编程逻辑资源,以及集成了32GB的HBM2e,能够达到820GB/s的数据带宽。此外,该SoC上还集成了400G加密引擎和600G以太网的高带宽核心,还包括了DDR控制器、PCIe5等硬核资源。

整个加速卡上除了这颗Versal自适应SoC外,还具备丰富的拓展和连接能力。板载高带宽收发器和光纤模块,能够支持800G(4X200G)网络带宽、PCIe Gen5金手指、32GB DDR4 DIMM拓展插槽和MCIO拓展插槽等。

据Shyam Chander介绍,相比上一代的Alveo U55C加速卡,Alveo V80的提升明显。通过参数对比可以看到存储器带宽方面,V80是至高1.8倍,逻辑密度是至高2倍,网络带宽从200GB每秒升至800GB每秒,至高4倍,在PCle带宽方面至高2倍。

【FPGA加速卡的独特优势】

网络附接加速卡需要与本地的CPU进行连接,而受限于CPU的连接能力,所以不能够无限增加加速卡的数量。而如果选择Alveo V80作为网络附接加速卡,那么就可以以以网络限速加速传入数据,避开CPU至加速器的PCle的瓶颈,实现每服务器卡数和计算密度的最大化。

凭借着灵活的存储器层次,自适应计算架构相比传统架构有着更低的时延和功耗。在传统的CPU/GPU架构中,计算核心和缓存之间有着固定的层次结构,大数据量的读写必然需要夸层访问,这种不规则的访问模式会带来了潜在的低效率。而在自适应计算架构中,内存可以部署地更靠近计算核心,这能够大大降低了数据迁移的成本。


加速传感器处理和数据压缩分析等工作负载,大幅降低客户总体拥有成本

凭借着Alveo V80的独特优势,不少客户已经获得了更好的加速体验。AMD在发布会现场展示了多个不同类型的案例。一个非常适合FPGA加速卡的场景是在传感器处理方面,Alveo V80能够强化处理相信你,且大幅降低客户的成本。

联邦科学与工业研究组织(CSIRO)需要在每平方公里的面积上部署131000个天线,以15TB/s的速率进行次序的传感器数据采集和传输。此前CSIRO选择的是420块Alveo U55C卡用于波束成形和相关器计算,总计需要占用21台服务器和4个机架。而在更新到ALveo V80之后,通过单卡的密集计算简化了整个新系统的集成、扩展和集群。最终仅需140张V80加速卡就可以完成之前420张U55C才能完成的计算,服务器数量也减少至14台,电力消耗也节省了一半以上。换算总拥有成本预计至高可以降低21%。

另一个典型的用例是在具备压缩与数据分析功能的服务器存储节点上,V80加速卡可用于数据压缩和分析的功能。NVMe SSD可以直接透过MICO连接器将数据传入V80上的Versal SoC中进行压缩、分析和解压缩等操作,然后将数据通过PCIe 5传输给主机CPU。因为Versal SoC中集成了HBM,所以大大减少了数据迁移,加速了数据查询的效率。

据Shyam Chander分享,通过Alveo V80带来的压缩加速和存储容量增加,传统上需要55台服务器、1303个SSD驱动器才能完成的计算负载,现在仅需21台服务器、504个SSD驱动器和42张V80加速卡即可完成。服务器成本降低了44%,功耗降低了55%,总拥有成本最高可以降低56%。

除此外,在网络安全和金融科技方面,V80加速卡也有着不可替代的价值。凭借着硬化的加密引擎和灵活的数据检测、协议和安全策略,以及来自HBM带来的缓冲和流量表储存功能,Alveo V80可以推动下一代800G网络防火墙的构建。在金融建模和算法交易方面,Alveo V80中的FPGA和DSP计算资源可用于建模仿真和回测,而HBM资源则可用于大数据集和历史定价数据存储,此外还有752Mb的RAM用于定价数据、交易记录。


结语

FPGA加速卡相比GPU加速卡,在某些工作负载方面有着独特的优势。而Alveo V80还集成了HBM,因此在提供灵活计算能力的同时,还大大降低了处理的时延和能效。但不可否认的是,FPGA加速卡对于开发者的硬件编程能力要求更高,纯软件工程师上手可能还需要一些学习成本。AMD也表示,Alveo V80针对传统FPGA开发者提供了更为优化的开发流程,当他们需要针对自定义工作负载进行硬件优化的时候,可以通过AMD VVivado设计套件来优化RTL设计,快速完成启动项目的示例设计。

Shyam Chander表示,根据不同的工作负载会有不同的计算加速需求,未来各种类型的加速卡将会共存。GPU主要擅长浮点、并联、定点计算,可以提供大量的HBM。FPGA主要擅长线上访问的实时处理,而且具备低时延、灵活应变特点,有非常丰富的存储器架构资源,就像乐高积木一样,可以自定义进行拼接和拼装。“FPGA的自适应SoC能降低时延,也能进行实时的传入数据的处理,同时还能够减少功耗。所以我觉得对于硬件开发者来说,FPGA为基础的加速器卡是最为适用的。”

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

6月20日消息,2024年世界移动通信大会·上海(MWC上海)将于6月26日至28日在上海新国际博览中心和上海浦东嘉里大酒店举行,华为已确认将参加本次大会。

关键字: AMD 光电模块 赛灵思

6月20日消息,在人工智能技术的推动下,NVIDIA股价一路飙升,市值首次超越科技巨头微软和苹果,成为全球市值最高的公司。

关键字: NVIDIA AMD 显卡

6月18日消息,据韩国媒体报道,三星电子近日宣布了一项重大决策,决定投资图形处理单元(GPU)领域,这一举措也预示着与GPU行业巨头NVIDIA的正面竞争。

关键字: NVIDIA AMD 显卡

AMD日前发布了全新的锐龙AI 300系列处理器(代号Strix Point),面向新一代轻薄型AI PC笔记本,x86处理器上首创的NPU AI引擎再次进化,凭借50TOPS(每秒50万亿次运算)的最强算力高居当今世界...

关键字: NPU AMD

本文根据完整的基准测试,将Achronix Semiconductor公司推出的Speedster7t FPGA与GPU解决方案进行比较,在运行同一个Llama2 70B参数模型时,该项基于FPGA的解决方案实现了超越性...

关键字: 大模型 FPGA LLM

在这篇文章中,小编将为大家带来FPGA三段式状态机设计的相关内容。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: FPGA 状态机

本文中,小编将对FPGA不复位的代码实现予以介绍

关键字: FPGA 复位

本文中,小编将对OV7670 驱动设计予以详细介绍,如果你想对它的详细情况有所认识,或者想要增进对设计方案的了解程度,不妨请看以下内容哦。

关键字: OV7670 驱动设计 FPGA 开发板

一直以来,AD转换都是大家的关注焦点之一。因此针对大家的兴趣点所在,小编将为大家带来FPGA Verilog HDL实现AD转换的实例设计的相关介绍,详细内容请看下文。

关键字: FPGA AD Verilog

在这篇文章中,小编将对FPGA中的定点数处理方法的相关内容和情况加以介绍以帮助大家增进对它的了解程度,和小编一起来阅读以下内容吧。

关键字: FPGA 定点数
关闭