当前位置:首页 > 厂商动态 > 是德科技
[导读]在快速发展的AI领域,性能至关重要——而这不仅限于计算性能。现代数据中心里,连接GPU、交换机和服务器的网络基础设施承受着巨大的压力。随着AI模型扩展到数千亿个参数,行业关注的焦点正转向AI训练性能中最为关键但又经常被忽视的组成部分之一:网络。

在快速发展的AI领域,性能至关重要——而这不仅限于计算性能。现代数据中心里,连接GPU交换机和服务器的网络基础设施承受着巨大的压力。随着AI模型扩展到数千亿个参数,行业关注的焦点正转向AI训练性能中最为关键但又经常被忽视的组成部分之一:网络。

长期以来,对AI网络进行基准测试和优化都需要在昂贵、耗电的GPU上运行实时工作负载。但GPU的可用性有限,而且大规模测试环境的配置需要时间和资金。因此,网络验证往往要推迟到实际工作负载运行时才能进行——这对于发现设计缺陷或性能瓶颈来说已经太迟了。

在超大规模AI时代,这种模式已经行不通了。

AI网络基础设施的负担与日俱增

当今AI模型的规模清晰地揭示了未来的基础设施挑战。当OpenAI训练GPT-3这一具有里程碑意义的、规模为1750亿个参数的语言模型时,运算量大约达到了3.14×10²³ FLOPs,这需要数千个NVIDIA V100 GPU运行数周的时间。这种工作负载不仅挑战了计算的极限,还考验了数据中心的整体架构。AI训练工作在GPU、存储和参数服务器之间产生了极端的东西向流量。流量模式中的任何拥堵、延迟或不平衡都会对吞吐量和能效产生重大影响。在超大规模场景下,即使是微小的效率损耗,也会造成数百万美元的损失。

然而,尽管网络层至关重要,行业却很少在部署前对网络基础设施上的真实AI工作负载执行测试。大多数数据中心不得不使用流量生成器、微基准测试或基于主观猜测构建的、无法反映真实训练动态的合成模型。在一个新工作负载不断重新定义性能预期的时代,这样的做法无疑充满风险。

基于工作负载仿真,重新思考AI网络验证方式

为了满足大规模AI的需求,具有前瞻性的企业目前正在采用AI工作负载仿真——这是一种使用模拟训练数据来重现大语言模型(LLM)训练、推理及其他AI任务的流量模式和需求的方法。

工程师无需查看GPU是否可用,即可通过仿真工作负载实现以下目标:

•再现真实的AI训练场景

•测量整个网络架构的性能

•识别拥塞、抖动、缓冲压力和路由效率低下问题

•对不同的拓扑结构、负载均衡方法和队列配置执行测试

这种基于仿真的方法可以让团队在GPU到位之前对数据中心网络进行基准测试和调试,从而大幅降低成本并加快部署。它还允许工程师重放过往的工作负载,以测试他们的网络在不同流量组合或拥塞控制策略下的响应情况。

实际应用:企业发挥引领作用

这并非停留在理论层面,而是已然落地的实践。

例如,瞻博网络(Juniper Networks)近期发布了一份白皮书,概述了该公司如何利用AI工作负载重放和仿真来验证AI数据中心的交换架构。通过在其网络架构中复现真实的LLM训练流量,瞻博网络可以测试拥塞场景、分析结构的可扩展性并优化队列配置策略,而无需等待实际GPU的部署。

瞻博网络的工程师还强调了在“未来负载条件”下验证网络行为的重要性。借助工作负载仿真,他们能够模拟尚未上线的训练工作负载,助力其构建可满足下一代AI需求的网络。

Meta以运营一些全球最先进的AI基础设施而闻名,它在模拟AI训练环境的内部测试平台上大力投入。这些测试平台让Meta的工程师能够使用类似训练的流量模式来验证拓扑决策、交换算法和拥塞处理策略。

同样,Microsoft正在从根本上重新设计其数据中心架构,以满足大规模AI工作负载的需求。这一转变涵盖定制的AI加速器、创新的机架规模系统以及为AI训练量身定制的高带宽网络结构。为支持这些转变,Microsoft投入于先进的建模和仿真工具,以复现LLM训练的密集流量模式。借助这些工具,在部署前,工程师就能够在受控环境中评估新的拓扑结构、测试负载均衡策略,并验证拥塞控制机制。

对于所有这些行业领导者来说,模拟真实AI工作负载的用意十分明确:避免主观猜测,缩短验证时间,确保网络的扩展能够跟上AI创新的速度。

工作负载仿真的五大优势

与传统方法相比,AI工作负载仿真具有以下几个关键优势:

降低成本

无需专门为网络测试预留昂贵的GPU资源。仿真可在商品硬件或虚拟环境中进行。

提高速度

支持在硬件采购或部署阶段同步进行性能测试,从而加快开发速度。无需等待机架里的GPU全部可用时再执行测试。

真实性

仿真工作负载相比合成流量生成器,能更准确地复现真实的训练模式(如突发流量、集体操作、同步阶段)。

可重复性

可以捕获、保存和反复重放工作负载,以测试不同拓扑设计、队列算法或配置更改的效果。

可扩展性

支持测试未来的“假设”场景,例如验证当前网络如何处理来自下一代模型的双倍流量。这种方法使网络架构师能够从被动的性能调整转向主动优化——确保AI基础架构的每一层在投入使用之前,都针对吞吐量、延迟和成本效益进行了调整。

参与超大规模AI基础设施建设的企业实现战略转变

随着LLM的不断发展——朝着万亿参数规模、多模式架构和低延迟推理的方向前进——数据中心网络将面临前所未有的压力。未来五年,AI集群的东西向流量预计将增长10倍或更多,在这种情况下,“等GPU到位再测试网络”的旧模式根本无法扩展。企业如果不能及早、经常地验证其网络,就可能面临性能瓶颈、成本超支和产品面市时间延迟等问题。

通过采用AI工作负载仿真,企业可以从昂贵的试错转向明智的设计,确保其网络能够满足未来的需求。

结论:AI网络测试的未来在于虚拟化

在打造更快、更智能AI模型的竞赛中,基础设施至关重要——而网络与计算同样关键。赢家将是那些能在生产流量进入系统之前,就能针对AI规模的工作负载对其网络进行模拟、测试和优化的企业。

正如瞻博网络、Meta和Microsoft等公司所展示的那样,工作负载仿真已不仅是一种战术优势,它正在成为一种战略必需。

对于超大规模云服务商、网络设备制造商以及任何为AI构建数据中心网络的企业来说,结论都非常明确:要保持竞争力,就必须采用仿真优先的设计,并从一开始就让网络为AI做好准备。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭