当前位置:首页 > > 动态速递
[导读]在AI异构计算架构中,英特尔至强6处理器作为主控CPU可以与NVIDIA最新GPU很好地协同。

一、至强6NVIDIA GPU协同的硬件基础

术业有专攻——AI系统主控CPU英特尔至强6新品处理器浅析

AI异构计算架构中,英特尔至强6处理器作为主控CPU可以与NVIDIA最新GPU很好地协同。根据英伟达官网信息,目前其DGX B300系统选择至强6776P作为唯一主控CPU,采用双路配置,通过UPI总线实现CPU间互连。这8个GPU通过NVLink高速互连,是性能比较高端的DGX,为训练等应用而设计。

作为主控CPU,它和GPU协同工作,而这个系统的性能受到诸多因素的影响,这里列出的是最主要的因素,包括I/O、核心性能、内存(包括带宽和容量)、CPU上的预处理或卸载(offload)能力、整体CPU系统的RAS,以及各种硬件的外形设计等。这些都会影响整个AI系统的端到端性能,因此AI系统通常比较复杂。

术业有专攻——AI系统主控CPU英特尔至强6新品处理器浅析

这一设计的性能提升要点在于:

1. 业界领先的I/O通道和内存能力

AP平台的双路至强6最多可以提供192条PCIe 5.0通道,也就是可以每路提供96条通道,相比上一代提升20%,内存通道也可以高达12个。直接匹配多GPU的高速接入需求,避免因通道不足导致的带宽瓶颈。

在SP平台上,英特尔还提供了一个差异化的产品,就是在单个CPU插槽上提供了更丰富的I/O资源(Rich I/O one socket),总共有136根的PCIe通道,持单插槽连接多块加速卡与存储设备,适用于边缘端“预处理+推理”一体化场景。同时,其高带宽内存可容纳更大模型参数,提升训练效率。在推理场景中,灵活的核心配置确保资源高效利用,满足多样化需求。

2. 核心性能优化

至强6区别于上一代产品的关键技术突破是Priority Core Turbo(PCT),其技术本质是通过Speed Select(SST)将单路CPU核心划分为两组:最多8个高频核心(PCT核心)与剩余低频核心。在DGX B300场景中,这一技术直接服务于“CPU驱动GPU”的典型需求,实现高频核心的精准调度:当GPU需要快速获取预处理数据(如从内存读取原始数据并完成清洗、特征工程)时,8个PCT核心可睿频至4.6GHz(传统64核SKU最大睿频为3.9GHz),相比全核睿频(3.6GHz)提升28%。这一特性缩短了数据从CPU到GPU的传输延迟。

3. 资源分配的灵活性

PCT核心数量可通过BIOS或SST-TF工具动态配置,客户可根据实际负载调整——客户在使用时可以根据需要选择8个、6个、4个或2个PCT核心。例如推理场景中若仅需4块GPU工作,可配置4个PCT核心对应驱动,避免资源浪费。与上一代Max Turbo技术的差异在于:PCT允许全核在线(无需半数核心休眠),且维持相同TDP(350W)与散热设计,确保硬件兼容性,降低客户部署成本。

4. 更强的内存架构兼容性

更高的内存带宽对于AI工作负载至关重要,因为AI的工作流程是一个完整的数据处理管道,而非单一环节。在这一过程中,CPU首先负责预处理,从内存中读取数据并进行初步处理,随后将数据传输至GPU。比如,至强6支持8通道到12通道的DDR5-6400内存,还支持MRDIMMs,能提供更高的30%带宽。

在LLM的生成式推理(如文本续写)中,自注意力机制需为每个已处理的Token生成并存储键(Key)和值(Value)矩阵,即KV Cache。KV Cache避免了在解码阶段重复计算历史Token的注意力状态,但会随序列长度线性增长,占用大量GPU显存,需要卸载到下一级存储中。对于CXL内存来说,有一个典型用例是KV Cache的卸载,通过用CXL内存去替代SSD,这样KV Cache的访问速度显著增快,从而提升了性能。

5. RAS和数据预处理

在企业级AI训练场景中,系统可靠性直接影响算力利用率与TCO。至强6的RAS体系覆盖全硬件链路,可以通过RAS特性来可以提高I/O的稳定性、内存系统稳定性、UPI链路稳定性、CPU及平台稳定性。CPU卸载则是针对MoE(混合专家)模型的另一种优化方式。目前市场上已有诸多关于通过AMX矩阵技术将部分MoE模型中的专家层卸载至至强处理器的案例。

术业有专攻——AI系统主控CPU英特尔至强6新品处理器浅析

二、为何是至强6776P

NVIDIA DGX B300选择的双路至强6776P的核心价值在于业界领先的I/O能力、领先的内存带宽、大内存容量、领先的RAS能力已经为特定AI负载优化的PCT产品。

其4.6GHz的睿频能力显著加速数据处理,PCT核心以4.6GHz频率加速数据预处理(如文本分词、图像解码),通过高速PCIe通道将数据传输至GPU,形成“CPU预处理→GPU计算”的流水线作业。这款处理器拥有单路88条PCIe通道,双路则达到176条。

英伟达选择了2 DPC架构(每颗CPU提供8通道内存,每通道2个DIMM)进行配置,双路系统可搭载32根DIMM,内存最大容量达8TB。

综述:开放生态的实际意义

至强6的核心优势在于开放性与兼容性。客户硬件选择自由,可以根据成本动态切换,避免被单一供应商锁定。在软件生态兼容层面,至强6也完全支持主流AI框架(如TensorFlow、PyTorch)与云原生技术,无需重新开发适配层,降低技术迁移成本。

从英伟达的选择逻辑看,DGX B300采用至强6应该并非单一性能导向,而是综合考量了生态开放性、成本可控性与技术成熟度——至强6作为量产级产品,其稳定性与供应链可靠性已通过大规模数据中心验证。

至强6在搭配NVIDIA GPU场景中的价值,本质上源于其对“CPU角色”的清晰定位:核心数量或睿频频率,都是围绕GPU协同需求而定,根据用户的不同需求,也可以选择不同的CPU型号。在关键路径(如高频数据传输、大内存容量、系统稳定性)上,至强6可以实现精准优化。对于企业客户而言,这意味着在AI基础设施建设中,可通过标准化硬件获取可预期的性能提升,同时避免为冗余功能支付额外成本。这种“需求导向型”技术路线,或许正是其成为英伟达首选主控CPU的核心原因。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

近日,美国参议院公布了一项引人注目的国防政策方案,其中包含的“2025年国家人工智能保障准入和创新法案”(简称GAIN AI法案)再次在全球科技领域掀起波澜。

关键字: AI GPU

重庆2025年9月6日 /美通社/ -- iChongqing新闻报道:2025世界智能产业博览会于9月5日在重庆开幕,550余家企业参展,展示了从自动驾驶和人工智能(AI)座舱到扩展现实(XR)影视和机器人咖啡厅的30...

关键字: 人工智能 新能源汽车 AI 机器人

慕尼黑2025年9月6日 /美通社/ -- 近日,广汽正式推出全新增程技术——"星源增程"(英文名为ADiMOTION),全面提升增程器效率、动力响应及NVH表现,同时配合AI能量控制平台,实现每一度...

关键字: 广汽 AI 增程器 电机

北京2025年9月5日 /美通社/ -- 近日,2025年中瑞商业大奖颁奖典礼在北京举行,SGS通标标准技术服务有限公司(以下称SGS通标)作为瑞士SGS在中国的分支机构荣获了传承奖的殊荣。SGS通标北京总经理...

关键字: 可持续发展 ST AI ABILITY

北京2025年9月5日 /美通社/ -- 9月2日,济南城市投资集团有限公司(简称"济南城投")与软通动力信息技术(集团)股份有限公司(简称"软通动力")正式签署战略合作...

关键字: AI 数字经济 智能化 人工智能技术

中国郑州2025年9月5日 /美通社/ -- 全球领先的电动客车制造商宇通客车("宇通",上交所代码:600066)全新升级的车联网系统Link+采用先进技术实现车队车辆与管理平台的智能互联。作为Vehicle+升级版,...

关键字: LINK 车联网 AI PS

大众汽车集团加速推进生产数字化转型 数字化生产平台(Digital Production Platform)成为大众汽车的"工厂云",在全球生产基地实现人工智能(AI)与前沿 IT...

关键字: 亚马逊 大众汽车 AI 数字化

北京2025年9月5日 /美通社/ -- 9月4日,在北京市人民政府新闻办公室举行的"一把手发布•京华巡礼"系列主题新闻发布会上,北京经开区对外发布,北京经济技术开发区(简称"北京经开区&q...

关键字: 人工智能 模型 开源 AI

RighValor现已基于Synaptics® Astra™ SL1600系列SOC运行,提供隐私至上的实时边缘智能。 加利福尼亚州帕洛阿尔托2025年9月5日 /美通社/ -- 边缘分布式代理AI先驱企业Righ今日...

关键字: 智能家居 SYNAPTICS AI ST

柏林2025年9月4日 /美通社/ -- 全球消费电子与家电领先品牌海信,将以AI Your Life为主题在IFA 2025呈现全线人工智能创新成果。从沉浸式娱乐、影院级画质到智能家居生活与气候智能健康,海信将展示AI...

关键字: 海信 AI RGB MINILED
关闭