原创

平替Fable 5？中国模型智谱GLM-5.2震惊硅谷

时间：2026-06-29 13:45:44

关键字： AI 人工智能智谱AI

[导读]最近，智谱AI开发的AI模型GLM-5.2在全球引发关注，热度极高。这款开源大语言模型擅长处理代码任务，对智能体工作流特别友好。

最近，智谱AI开发的AI模型GLM-5.2在全球引发关注，热度极高。这款开源大语言模型擅长处理代码任务，对智能体工作流特别友好。

智谱方面表示，GLM-5.2的上下文窗口支持100万Token，与Anthropic的Claude Opus 4.8和OpenAI的GPT 5.5处于同一水平。

许多行业人士都对GLM-5.2的速度与能力感到惊叹。Vercel的CEO吉列尔莫·劳赫（Guillermo Rauch）在社交平台X上写道：“GLM-5.2的编程能力之强让我印象深刻，甚至感到震惊，它将改变游戏规则。”

曾担任谷歌DeepMind和微软的副总裁的马特·维洛索（Matt Velloso）说：“这是第一个能作为日常主力工具使用的开源模型。情况将不再一样了。”

因口碑走红的模型

GLM-5.2的热度升高似乎是一次意外，业界对它的热议是渐渐走高的。在Design Arena平台上，GLM-5.2甚至击败了Claude Fable。

无数AI同仁测试了这款开源模型，基本都是赞不绝口。之前让美国同行惊叹的是DeepSeek R1，而GLM-5.2的表现已远远超越了那个里程碑。Kimi K2之所以令人印象深刻，是因为中国各公司似乎都能在开源模型性能上取得重大突破。而GLM-5.2所迈出的这一步，堪称人工智能进步的一扇单向大门。

Anthropic凭借Claude Code获得巨额收入，GLM-5.2成为可信的替代选择。在通用智能体的编码环境中，它的表现超出预期。

一位行业人士认为，在过去一年里，美国各大实验室的算力增长迅猛，原本以为中美模型的性能差距会随着时间推移而进一步拉大，但目前中美模型的差距可能正在缩短，仅剩6-9个月。

在当前环境下，美国认为“神话级”模型的能力尚不安全，无法对外发布；而中国模型开发者却大步向前，致力于将这些能力推向全民。

Anthropic旗下Claude Fable 5于6月9日发布，美国认为该模型容易遭受“越狱破解”，于是下令限制国外用户访问，导致模型在全球处于不可用状态。这一事件促使全球开发者重新评估对美国技术的依赖是否可以持续，而中国模型能力的提升，也让市场迎来了新的机会。

亚洲协会政策研究所中国经济研究员Lizzi Lee表示：“我认为，智谱AI的股价上涨表明，市场立刻意识到了Anthropic刚刚创造出的机会。”

智谱AI创始人唐杰称美国的限制“令人深感遗憾”，同时强调了自家模型的完全开源属性。智谱AI官方承诺，GLM-5.2的性能将达到顶级水平，并超越其原本已非常先进的GLM 5.1。

Anthropic警告称，美国及其盟友仍有机会锁定12-24个月的前沿能力领先优势，但锁定这一领先优势的窗口期未必会持续太久。6月18日，在X平台上，许多人讨论“中国模型何时达到Fable级别”，马斯克认为2027年第一季度可能就会达到，而智谱AI联合创始人唐杰却回复称“用不了那么久”。

基准测试证明其实力

在FrontierSWE基准测试中，GLM-5.2得分74.4，紧追Claude Opus 4.8的75.1，并超越了GPT-5.5的72.6。在SWE-bench Pro测试中，GLM-5.2得分62.1，高于GPT-5.5的58.6，并以大幅优势超越前代GLM-5.1的58.4。

正因如此，它成为Artificial Analysis Intelligence Index平台上最好的开源模型，OpenRouter将其归类为与Claude Fable 5处于同一级别。

需要注意的是，GLM-5.2是在华为Ascend（昇腾）芯片上训练的，整个流程中没有英伟达的身影。

Stability AI创始人Emad Mostaque估计，GLM-5.2总训练成本约为2500万美元，其中80%用于训练后阶段。与同类模型相比，这一成本极低。

正如Decrypt今年早些时候报道的那样，智谱AI已经在华为Ascend Atlas服务器上训练图像模型，未使用任何美国芯片。

Snowflake第一时间对GLM-5.2和Opus 4.7进行了测试，结果发现，GLM-5.2经受住了考验。

测试涵盖103项任务，每项任务运行三次，要求模型编写的代码能在DuckDB和Snowflake双平台上运行。当每个模型在每项任务上拥有三次尝试机会时，两者难分伯仲：任务解决率分别为66%和67%。

但在首次尝试的准确率上，两者出现了分化：Opus达到53.7%，而GLM仅为47.6%，这表明GLM的输出稳定性稍逊一筹。

此外，中国模型每项任务平均运行99次，而Opus为80次；GLM消耗了8.6亿个token，几乎是Opus（4.39亿个）的两倍。

AI研究员Nathan Lambert表示：“几乎所有我尊重的AI评论界和研究界人士都亲自使用了GLM-5.2，用后都称赞了这款模型。开源模型在社区中引发如此集中讨论，此前只出现过一次——DeepSeek R1。这不是一个我轻易做出的比较，当我将Kimi K2的发布比作一个‘DeepSeek时刻’，GLM-5.2已经远远超越了那个时刻。”

目前看来，GLM-5.2至少与谷歌提供的产品一样好，甚至可能更好——这在几个月前听起来还是个很奇怪的结论。

随着AI能力的每一次跃升，价格实惠、灵活且开源的模型都紧随其后，曾经部署成本高昂的东西变得相当便宜。美国鼓吹“国家安全”，可能只是自身优势在缩小，而不是扩大，这本质上是一种被追赶者的忧虑。（小刀）