算力长城与安全原点：剖析海光“双芯”产品的内生安全逻辑与万亿参数大模型推演

时间：2026-04-07 21:20:58

关键字：海光信息 DCU AI 机密计算

手机看文章

扫描二维码
随时随地手机看文章

[导读]在算力即国力的2026年，大模型演进的范式正在加速。随着混合专家模型（MoE）向十万亿参数规模挺进，算力基础设施的评价维度已从单纯的浮点运算性能，转向了由“架构安全性、软件生态韧性、计算能效比”构成的三维坐标系。近日，在海光信息2026春季技术沟通会上释出的信号显示，国产处理器已不再满足于单纯的计算性能追赶，而是试图从硅片的底层物理结构出发，通过“内生安全”构建起一道能够抵御AI时代新型威胁的硬件护城河。海光双芯（CPU+DCU）的深度耦合，不仅为万亿级大模型提供了稳定的训练基座，更在后量子密码布局与机密计算领域展示了其作为国产算力底座的战略雄心。

在算力即国力的2026年，大模型演进的范式正在加速。随着混合专家模型（MoE）向十万亿参数规模挺进，算力基础设施的评价维度已从单纯的浮点运算性能，转向了由“架构安全性、软件生态韧性、计算能效比”构成的三维坐标系。近日，在海光信息2026春季技术沟通会上释出的信号显示，国产处理器已不再满足于单纯的计算性能追赶，而是试图从硅片的底层物理结构出发，通过“内生安全”构建起一道能够抵御AI时代新型威胁的硬件护城河。海光双芯（CPU+DCU）的深度耦合，不仅为万亿级大模型提供了稳定的训练基座，更在后量子密码布局与机密计算领域展示了其作为国产算力底座的战略雄心。

从传统边界瓦解看芯片“内生安全”的必然性

过去三十年，信息安全的逻辑主要建立在“边界防御”之上，即通过外部软件、防火墙或权限管控来隔离威胁。然而，进入大模型高频迭代的2026年，这种外部防御体系在面对具备“自我意识”的智能体（Agent）时显得力不从心。正如海光信息副总裁应志伟在沟通会上所提到的，新型智能体如“小龙虾”已具备自主调用工具、安装程序乃至开后门的能力，这种动态扩展的威胁远超传统木马的预设逻辑。

图：海光信息副总裁应志伟

更为严峻的挑战源于算力的高密度化与多租户云化。当大模型训练需要动用数万张算力卡时，数据在物理边界间的流动变得不可控。在异构计算架构中，数据若以明文形式驻留在内存或在CPU与AI加速卡之间传输，极易遭遇供应链后门、算力劫持或模型投毒。海光提出的“内生安全”理念，其核心在于将安全属性从软件层下沉至芯片层。

这种转变并非虚词，而是基于硬件指令集的底层重构。海光CPU通过自主拓展的安全算法指令，将加解密、身份认证等功能直接固化在硬件流水线中。与传统依靠操作系统调用的软加密相比，这种硬件原生的密码技术不仅让密钥“可用不可见”，更大幅降低了加密过程对主算力的损耗。这种从CPU启动的第一条指令就开始的硬件级逐级度量，确保了BIOS、OS等核心环节的完整性，一旦侦测到篡改行为，硬件将从物理层面强行中止运行，从而在源头上杜绝了类似1991年海湾战争中植入芯片级的病毒干扰。

双芯协同与机密计算：构建大模型训练的物理保险库

在AI算力需求呈指数级增长的背景下，内存价格在过去一年内出现了近十倍的异动，这映射出大模型对硬件资源的极限索求。为了在资源紧平衡的状态下确保金融、政务等核心敏感领域的数据安全，海光的CSV机密计算技术已演进至3.0版本。

不同于市面上常见的单一组件加密，海光实现了CPU与DCU（深度计算单元）共享同一安全域的技术突。在大模型训练过程中，模型权重和推理数据在内存中以商密SM4算法进行加密存储。这意味着，即便在多租户的云环境中，云服务提供商的管理员或潜在的恶意租户，也无法窥探到运行中的内存明文。海光通过硬件实现的计算隔离、启动度量与远程认证，将AI计算的全栈路径封装在一个“硬件隔离舱”内。

尤其值得技术界关注的是，针对即将到来的“Q-Day”（量子计算威胁日），传统的RSA或ECC加密体系在面对量子计算机的强力拆解时，其安全性将化为乌有。海光已在前瞻性地布局抗量子密码（PQC）算法，海光将力争成为国内首个在硬件层面支持抗量子密码的国产CPU，这不仅是对现有非对称密码体系的防御性升级，更是为了应对量子计算的“先存储、后解密”这一针对国家级敏感数据的长期安全威胁。

软件栈年度演进：十万亿参数背后的性能压榨与生态耦合

硬件性能的释放离不开软件栈的深度调优。海光DCU软件栈的年度更新，重点解决了大模型从“能跑”到“稳定跑、高效跑”的跨越。

在异构计算平台DTK 26.04中，海光通过全精度优势，实现了对训练、推理及AI4S（AI for Science）等全场景的覆盖。更为硬核的数据来自于人工智能基础软件系统DAS 1.8，该系统目前已集成超过2000个算子，并支持包括Pytorch、TensorFlow、vLLM、SGLang在内的100余个主流AI框架组件。在由数万张海光DCU构建的万卡算力集群上，研发团队通过算子调优与编译优化，已初步完成了10万亿模型参数的稳定运行。

10万亿参数规模的稳定运行，对算力集群的扩展效率提出了近乎苛刻的要求。根据光合组织人工智能专委会副主任胡辰披露的数据，在万卡级训练任务中，海光DCU的扩展效率高达99.63%。这种高效率的背后，是针对MoE架构进行的特殊算子优化。例如，在生成视频与图像的场景优化上，海光DCU实现了近一倍的性能提升。

图：光合组织人工智能专委会副主任胡辰

更具行业参考价值的是其在长周期训练中的稳定性表现。某款世界模型在海光DCU上持续训练40天，其Loss曲线的平滑度表现优异，且精度差异与国际一流产品相比仅在千分位级别。这种“工业级”的稳定性，是国产算力从实验室走向大规模商业应用的关键门槛。

AI落地：从“算力丰裕”到“算力极致利用”的逻辑转换

当前，外部环境对先进算力芯片的供应限制已成常态。然而，这种外部压力反而倒逼国产芯片厂商在软件优化效率上寻找突破口。海光的逻辑在于，既然无法依靠算力堆砌的“暴力美学”，就必须通过算法优化与软硬件解耦将每一比特算力发挥到极致。DeepSeek等近期技术成果的涌现，已经证明了通过架构优化实现以小博大的可行性。

在应用落地的层面，海光CPU与DCU的组合已不再局限于试验田。目前，海光CPU在政府、金融、互联网等领域的出货量已占据国内头部份额。DCU则在20多个行业、300多个场景中实现了落地，服务对象涵盖了国家税务总局、海关总署以及多家大型国有银行。

特别是在智能体（Agent）的管理上，海光提出了“机密龙虾”的概念。通过将AI智能体部署在机密计算环境中，限制其访问权限与可见范围，既利用了AI作为“员工”的生产力（可能将三人的月度工作缩短至半天），又物理性地阻断了其主动泄露企业机密的风险。这种“既要效率、又要受控”的平衡术，正是2026年企业级AI应用的真实痛点。

结语

海光信息的2026年春季技术沟通会，实际上向外界传递了一个清晰的产业判断：算力的竞争终将回归安全与生态的本质。当业界还在讨论Token的生成成本时，海光已在布局如何让Token变得高效且“机密”。

通过对C86架构的独立演进，海光实现了对“熔断”、“幽灵”等国际芯片重危漏洞的原生免疫，这种底层架构的自主性，结合从密码技术、机密计算到抗量子布局的完整链条，正在构建一套独立于外部依赖的数字底座。在万亿级大模型时代，这种“内生安全”不仅是技术的加持，更是中国AI产业在不确定性的全球供应链中，寻求确定性增长的终极入场券。