当前位置:首页 > 芯闻号 > 美通社全球TMT
[导读]北京2025年3月20日 /美通社/ -- 浪潮信息宣布推出元脑CPU推理服务器,可高效运行DeepSeek和千问QwQ等新一代大推理模型。元脑CPU推理服务器NF8260G7和NF8480G7设计采用4颗高性能通用CPU和多通道内存系统,通过先进的张量并行策略和AMX加速技术,...

北京2025年3月20日 /美通社/ -- 浪潮信息宣布推出元脑CPU推理服务器,可高效运行DeepSeek和千问QwQ等新一代大推理模型。元脑CPU推理服务器NF8260G7和NF8480G7设计采用4颗高性能通用CPU和多通道内存系统,通过先进的张量并行策略和AMX加速技术,单机即可高效运行DeepSeek-R1 32BQwQ-32B推理模型,单用户性能超20 tokens/s,可同时处理20个并发用户请求,是企业快速、易获得、低投入部署上线大模型平台的理想算力选择,将加速DeepSeek带动下AI落地普及速度。

大模型行业应用落地加速,DeepSeek-R1 32B、QwQ-32B等模型中文能力见长,并在理解能力和知识储备上有显著优势,是企业平衡性能和部署成本的最佳模型选择。元脑CPU推理服务器仅基于通用处理器进行软硬协同优化,可为企业32B模型推理与云计算、数据库等通用关键业务场景融合提供更高效、更灵活、更稳定的AI通用算力支撑。

浪潮信息:推出CPU推理服务器支持DeepSeek和QwQ,元脑加速AI普及


随着DeepSeek等大模型在企业场景中的应用日趋广泛,以及与企业业务系统的融合更加紧密,CPU服务器凭借其独特优势成为中小规模并发场景部署DeepSeek的最佳选择。CPU服务器具备卓越的通用性和灵活性,可同时支持AI推理、云计算、数据库等多种工作负载,避免了专用AI硬件的使用局限,为大模型应用与现有IT基础设施的融合提供了更加灵活、经济的方案选择,使企业能够以较低的硬件投入快速实现大模型应用落地。

在企业部署大模型的过程中,参数规模与其应用场景息息相关。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示,目前92%企业使用的生成式人工智能模型平均参数量小于50B。一般而言,671B等超大规模参数的模型性能更强,但对硬件资源要求高,部署成本昂贵;而32B级模型在理解能力和知识储备上有显著优势,能够平衡性能和部署成本。以业界32B模型为例,DeepSeek-R1 32B在知识问答、智能写作、内容生成等方面表现优秀,QwQ-32B则在数学推理、编程任务和长文本处理等方面的性能优异。DeepSeek-R1 32B和QwQ-32B的训练数据中包含海量的高质量中文语料库,会更加适合于国内企业应用,而Llama 70B主要基于英文语料进行训练,对中文用户而言不够友好。因此,大多数企业应用场景中,如企业知识库问答、文档写作、会议纪要整理等场景,32B参数级别的模型往往是最佳选择,既能提供强大的能力支持,又能保持合理的硬件投入。

目前元脑CPU推理服务器NF8260G7和NF8480G7基于通用处理器架构进行软硬协同优化,已经完成与DeepSeek-R1 32B和QwQ-32B等大模型的深度适配和优化。元脑CPU推理服务器通过采用先进的张量并行策略和AMX加速技术,业界主流企业级大模型推理服务框架,实现多处理器并行计算,并使用AWQ(激活感知权重量化)技术,进一步提升推理解码性能,成功实现单用户最高20tokens/s的最佳性能,为企业的AI大模型部署应用带来流畅体验。

面对CPU服务器部署大模型面临算力和带宽方面的挑战,元脑CPU推理服务器采用了多项创新技术。

  • 在算力方面,元脑CPU推理服务器NF8260G7和NF8480G7,设计上采用4颗32核心的英特尔至强处理器6448H,具有AMX(高级矩阵扩展)AI加速功能,支持张量并行计算,并通过多通道内存系统设计可支持32组DDR5内存,从而在单机具备超强的BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带宽,可以更好满足模型权重、KVCache等计算和存储需求,快速读取和存储数据,大幅提升大模型推理性能。同时,元脑四路服务器具备高可靠性,平均无故障时间可达200,000小时,保障关键应用和AI推理应用持续稳定运行。
  • 在算法方面,元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化,通过张量并行和内存绑定技术,充分释放服务器CPU算力和内存带宽潜能,实现多处理器并行计算,效率最高提升4倍,并使用AWQ(激活感知权重量化)技术进一步加速解码性能,实现了2倍解码性能提升。测试数据显示,基于单台NF8260G7,在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过20tokens/s,20个并发用户下,总token数达到255.2tokens/s;在使用QwQ-32B进行模型推理时,支持20个并发用户数,总token数达到224.3tokens/s,可以提供流畅稳定的用户体验。

基于DeepSeek-R1 32B 并发性能测试数据


基于DeepSeek-R1 32B 并发性能测试数据

 

基于QwQ-32B 并发性能测试数据


基于QwQ-32B 并发性能测试数据

当前,元脑服务器研发团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高效、稳定的DeepSeek等大模型部署方案,助力大模型快速落地应用。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭