当前位置:首页 > 原创 > 刘岩轩
[导读]AI训练不仅是“算力游戏”,更是“网络与系统工程”。在资源最密集的LLM训练中,仅靠算力是不够的——网络可靠性和系统组件的稳定性同样至关重要,必须在系统级别优化网络吞吐、延迟及通信协议,否则大量算力浪费在重试或错误恢复上。网络性能和组件协同工作是AI集群效率的关键,任何单一环节的不足都可能显著影响整体系统表现,凸显了系统级验证和优化需求的重要性。

AI训练不仅是“算力游戏”,更是“网络与系统工程”。根据实际案例,GPU在“真正计算”的工作时间不超过20%;超过一半时间被网络/数据传输拖慢。而且训练成功率也差强人意,总体成功率仅57%,意味着>43%的训练任务被中断或失败。在资源最密集的LLM训练中,仅靠算力是不够的——网络可靠性和系统组件的稳定性同样至关重要,必须在系统级别优化网络吞吐、延迟及通信协议,否则大量算力浪费在重试或错误恢复上。网络性能和组件协同工作是AI集群效率的关键,任何单一环节的不足都可能显著影响整体系统表现,凸显了系统级验证和优化需求的重要性。

人工智能(AI)技术的飞速发展正在深刻改变全球科技格局,其在数据中心、通信网络、自动驾驶、医疗健康和工业制造等领域的广泛应用,不仅推动了技术创新,也对测试与测量领域提出了前所未有的挑战。AI的高计算需求、大规模数据处理以及实时决策能力,使传统测试方法显得力不从心。尤其是随着AI系统复杂性的不断提升,如何在开发和部署过程中确保其性能、稳定性和可靠性,成为了行业亟待解决的难题。

是德科技(Keysight Technologies),作为测试与测量领域的全球领导者,深刻认识到AI带来的这些挑战,并推出了KAI(Keysight Artificial Intelligence)系列解决方案,旨在通过创新的测试工具和策略,为AI系统的开发和部署提供强有力的支持。

是德科技大中华区高速数字市场部经理李坚


AI带来的测试挑战

AI技术的快速发展为各行业带来了巨大的市场机遇,但同时也伴随着严峻的测试挑战。综合多家市场研究机构的预测,全球AI市场规模预计将从2022年的869亿美元增长到2030年的1.3万亿美元,2024年到2030年的年均复合增长率高达35.7%,并将为美国GDP贡献21%的净增长(到2030年)。这一迅猛增长的背后,是AI系统对计算能力、数据处理和网络性能的极高要求,而这些需求直接导致了测试领域的多重挑战。

AI系统的核心在于其高性能计算和大规模数据处理能力,这直接推动了对带宽的极高需求。当前的AI应用场景,如大规模语言模型训练、实时图像识别和自动驾驶决策,要求系统能够在极短时间内处理海量数据。这意味着测试验证必须在系统级别进行,以确保所有组件能够在高负载下协同工作。未来3到5年内,技术将迎来显著的转折点:以太网速度将从400/800G升级至1.6/3.2T,带宽提升4倍;内存技术将从DDR5 8.4 GT/s发展到DDR6/HBM3 12.8 GT/s,速度提升1.5倍;铜缆和光纤传输速率将从100 Gb/s提升至224/448 Gb/s,增长4倍;PCIe和CXL传输速率将从32 GT/s提升至128 GT/s,同样增长4倍;无线通信将从5G的10 Gbit/s跃升至6G的100+ Gbit/s,速度提升10倍。这些技术升级对测试工具提出了更高的要求:测试设备不仅需要支持更高的带宽,还必须能够模拟和验证这些高速系统在实际应用中的表现。

此外,带宽需求的增长并非仅通过提升硬件性能就能完全解决,优化系统效率同样至关重要。AI系统的性能瓶颈往往出现在数据传输和计算资源的协调上。例如,在AI训练过程中,数据传输的延迟可能导致计算资源的闲置,进而影响整体效率。因此,测试工具需要能够在系统级别模拟真实的工作负载,识别潜在的瓶颈,并提供优化建议。

“坦白说,现在的算力中心、数据中心里,很多设备和系统其实是还未完善便被在短时间内部署上岗的,它们的稳定性并不理想。如果仔细去观察和深入数据中心,会发现数据中心里会存在各种各样的问题。”是德科技大中华区高速数字市场部经理 李坚分享到,“总结来说,人工智能发展需要非常大的模型、大的算力和大的带宽,而这些都给我们的技术和产业带来很大的挑战。”

数据中心基础设施的复杂挑战

AI数据中心是支持AI应用的核心基础设施,但其复杂性带来了多方面的挑战,主要集中在计算与内存扩展、网络性能优化以及多重故障点的管理上。首先,计算与内存扩展是AI训练集群的基础需求。现代AI模型,如大型语言模型(LLM),可能包含数千亿个参数,需要数千个GPU组成的集群进行训练。这对数据中心的计算能力和内存带宽提出了极高的要求。研究表明,GPU在AI训练中的利用率往往不高,超过50%的GPU时间因数据等待而闲置:通信延迟占62%,计算占20%,内存访问占2%,其他重叠因素占16%(Keysight AI计算视觉GPU利用率,2025)。这种低效的资源利用率直接导致了训练成本的增加和开发周期的延长。

其次,网络性能是AI数据中心的一个关键瓶颈。AI数据中心的流量模式已经从传统的南北向(客户端到服务器)转向东西向(服务器到服务器),这意味着集群内部的数据传输需求大幅增加。低延迟和高吞吐量成为网络设计的核心目标。为了满足这一需求,业界正在采用Scale Out(如InfiniBand和Ultra Ethernet)来减少延迟和拥堵,同时采用Scale Up(如NVLink、Infinity、UALink)将多个GPU集群视为一个统一的计算单元,支持超过10万个GPU的超大规模训练集群(Keysight网络组件影响,2025)。然而,这种复杂的网络架构也增加了测试的难度:测试工具需要能够在高负载下验证网络的稳定性,同时识别潜在的拥堵点和延迟问题。

最后,多重故障点是AI数据中心的一个显著挑战。AI训练任务的失败率高达43%,其中网络问题占21%,计算和驱动错误占22%,只有57%的任务能够成功完成(Keysight训练任务失败分布,2025)。这些故障可能发生在硬件层面(如GPU过热、网络连接中断)、软件层面(如驱动兼容性问题)或数据层面(如数据损坏或丢失)。因此,测试方案必须能够全面覆盖所有可能的故障点,并提供有效的诊断工具,帮助工程师快速定位和解决问题。

网络与组件的协同重要性

AI系统的性能高度依赖于其基础设施中每个组件的协同工作。一个次优的组件可能成为整个系统的瓶颈,拖慢整体性能。例如,在一个AI数据中心中,如果网络交换机的延迟过高,可能导致GPU集群之间的数据传输效率下降,进而影响训练速度。同样,如果内存带宽不足,GPU可能无法及时获取所需的数据,导致计算资源的闲置。测试工具需要能够在系统级别模拟这些组件的交互,验证其协同工作的能力,并识别潜在的性能瓶颈。

此外,随着AI数据中心规模的不断扩大,测试的复杂性也在增加。传统的测试方法往往专注于单个组件的性能,而忽视了系统级别的交互效应。在AI场景下,这种方法已经不再适用。测试方案需要能够模拟真实的AI工作负载(如模型训练、推理任务),并在高负载下验证整个系统的性能和稳定性。


是德科技KAI解决方案:应对AI测试挑战的利器

针对AI带来的测试挑战,是德科技推出了KAI系列解决方案,旨在通过集成先进的硬件、软件和AI驱动的分析能力,提供端到端的测试支持。KAI方案的核心目标是帮助工程师验证AI系统的性能,优化资源利用率,并加速开发和部署过程。通过结合是德科技在测试与测量领域的深厚经验,KAI为AI数据中心、通信网络和其他关键应用场景提供了强大的支持。

KAI方案的一个显著优势是其能够模拟真实的工作负载,并提供系统级别的测试能力。例如,KAI可以模拟大规模AI训练集群的工作负载,验证网络、计算和存储组件在高负载下的表现。此外,KAI还集成了AI驱动的分析工具,能够自动识别性能瓶颈并提供优化建议。这种智能化的测试方法不仅提高了测试效率,还帮助工程师更快速地解决复杂问题。

在KAI解决方案的框架下,是德科技推出了一系列新产品,专门针对AI测试中的核心挑战。这些新品包括DCA-M采样示波器、互连与网络性能测试仪以及KAI数据中心构建器,每款产品都为AI系统的验证和优化提供了独特的功能。

DCA-M采样示波器(型号:N1093A、N1093B)

DCA-M采样示波器是专为高速通信系统设计的测试工具,支持224 Gb/s单通道和双通道光学采样能力。N1093A和N1093B型号特别适用于AI数据中心光模块的信号完整性测试,能够精确测量高速信号的眼图、抖动等关键参数。通过其高精度采样和实时分析功能,DCA-M示波器能够帮助工程师快速识别信号传输中的潜在问题,确保AI系统的高速通信链路的可靠性。

李坚总结了DCA-M采样示波器的三大特点:一是大带宽;二是低抖动、低噪声;三是全集成。“它主要面向的是光芯片、光模块领域的客户。光模块或者电模块打出信号以后,我们主要使用DCA-M采样示波器来评估信号的质量。这是一个纯物理层的测试。”

互连与网络性能测试仪(型号:1.6T)

互连与网络性能测试仪(型号1.6T)是专为高速网络设计的测试工具,支持1.6T(224 Gb/s * 8通道)的1-3层网络性能测试。该测试仪能够模拟AI数据中心中的高密度网络环境,验证网络设备的吞吐量、延迟和丢包率。

在AI数据中心中,网络性能直接影响训练任务的效率。例如,一个大型语言模型的训练可能需要数千个GPU之间的频繁数据交换。如果网络存在拥堵或延迟,训练速度将显著下降。1.6T测试仪通过模拟真实的工作负载,帮助工程师识别网络中的瓶颈,并优化交换机和路由器的配置。此外,该测试仪还支持多协议测试,确保网络设备能够在不同的AI应用场景中稳定运行。

“该产品是包含层2、层3测试功能的分析仪,并且是高度集成的。”李坚总结道,“它面向的客户是一些光模块、电模块领域的厂商,以及生产网卡交换机的厂商。无论是研发还是生产都可以使用它。”

KAI数据中心构建器(工作负载仿真)

KAI数据中心构建器是一款专注于工作负载仿真的软件工具,旨在优化AI数据中心的基础设施。该工具能够重放真实的AI工作负载(如模型训练、推理任务),并对网络的性能进行基准测试。

AI数据中心构建器的核心功能在于其工作负载仿真能力。例如,它可以模拟一个包含多GPU的训练集群,生成真实的数据流量。这种仿真能力对于验证超大规模AI系统的稳定性至关重要。此外,该工具还提供了详细的性能报告,帮助工程师识别系统中的瓶颈,并制定优化策略。例如,如果报告显示网络延迟是主要瓶颈,工程师可以通过调整交换机配置或增加带宽来解决问题。

“现在网络更新迭代的速度非常快,GPU基本上1-2年就要更新一代,交换机其实也是同样的情况。原来设计好的网络,换一个交换机使用,其原本的性能、参数可能就会发生变化。新安装到系统中的设备会不会催生出一些新的问题?用户可以在将设备安装上去之前先用测试工具去测试一下。”李坚解释道,“我们提供的KAI数据中心构建器就是这样的测试工具,能够帮助用户比较好地定义AI网络可能会出现的各种各样的问题,让用户在真正在线网部署实施时将设备调通,从而将潜在的问题消灭于无形。”


未来展望:AI测试的持续演进

随着AI技术的不断发展,其对测试与测量的需求也将持续演进。未来,AI系统将更加依赖于超大规模计算集群、超高速网络和新型存储技术,这将进一步加剧测试的复杂性。例如,6G网络的部署将带来更高的带宽和更低的延迟要求,而新型内存技术(如HBM4)将需要更高的测试精度。为了应对这些挑战,测试工具需要不断创新,融入更多的AI技术,以实现更高效、更智能的测试流程。

是德科技的KAI解决方案及其新产品矩阵为AI测试的未来奠定了坚实的基础。通过结合高性能硬件、智能软件和AI驱动的分析能力,KAI不仅能够应对当前的测试挑战,还能够适应未来的技术演进。例如,DCA-M示波器的高速采样能力可以扩展到支持448 Gb/s的信号测试。此外,AI数据中心构建器的工作负载仿真功能可以通过更新模型库,支持新型AI工作负载的测试。

随着AI市场的持续增长,是德科技的KAI解决方案将继续在测试与测量领域发挥关键作用,推动AI技术以更高的可靠性和效率落地,为行业的未来发展注入新的动力。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭