平替Fable 5?中国模型智谱GLM-5.2震惊硅谷
最近,智谱AI开发的AI模型GLM-5.2在全球引发关注,热度极高。这款开源大语言模型擅长处理代码任务,对智能体工作流特别友好。
智谱方面表示,GLM-5.2的上下文窗口支持100万Token,与Anthropic的Claude Opus 4.8和OpenAI的GPT 5.5处于同一水平。
许多行业人士都对GLM-5.2的速度与能力感到惊叹。Vercel的CEO吉列尔莫·劳赫(Guillermo Rauch)在社交平台X上写道:“GLM-5.2的编程能力之强让我印象深刻,甚至感到震惊,它将改变游戏规则。”
曾担任谷歌DeepMind和微软的副总裁的马特·维洛索(Matt Velloso)说:“这是第一个能作为日常主力工具使用的开源模型。情况将不再一样了。”
因口碑走红的模型
GLM-5.2的热度升高似乎是一次意外,业界对它的热议是渐渐走高的。在Design Arena平台上,GLM-5.2甚至击败了Claude Fable。
无数AI同仁测试了这款开源模型,基本都是赞不绝口。之前让美国同行惊叹的是DeepSeek R1,而GLM-5.2的表现已远远超越了那个里程碑。Kimi K2之所以令人印象深刻,是因为中国各公司似乎都能在开源模型性能上取得重大突破。而GLM-5.2所迈出的这一步,堪称人工智能进步的一扇单向大门。
Anthropic凭借Claude Code获得巨额收入,GLM-5.2成为可信的替代选择。在通用智能体的编码环境中,它的表现超出预期。
一位行业人士认为,在过去一年里,美国各大实验室的算力增长迅猛,原本以为中美模型的性能差距会随着时间推移而进一步拉大,但目前中美模型的差距可能正在缩短,仅剩6-9个月。
在当前环境下,美国认为“神话级”模型的能力尚不安全,无法对外发布;而中国模型开发者却大步向前,致力于将这些能力推向全民。
Anthropic旗下Claude Fable 5于6月9日发布,美国认为该模型容易遭受“越狱破解”,于是下令限制国外用户访问,导致模型在全球处于不可用状态。这一事件促使全球开发者重新评估对美国技术的依赖是否可以持续,而中国模型能力的提升,也让市场迎来了新的机会。
亚洲协会政策研究所中国经济研究员Lizzi Lee表示:“我认为,智谱AI的股价上涨表明,市场立刻意识到了Anthropic刚刚创造出的机会。”
智谱AI创始人唐杰称美国的限制“令人深感遗憾”,同时强调了自家模型的完全开源属性。智谱AI官方承诺,GLM-5.2的性能将达到顶级水平,并超越其原本已非常先进的GLM 5.1。
Anthropic警告称,美国及其盟友仍有机会锁定12-24个月的前沿能力领先优势,但锁定这一领先优势的窗口期未必会持续太久。6月18日,在X平台上,许多人讨论“中国模型何时达到Fable级别”,马斯克认为2027年第一季度可能就会达到,而智谱AI联合创始人唐杰却回复称“用不了那么久”。
基准测试证明其实力
在FrontierSWE基准测试中,GLM-5.2得分74.4,紧追Claude Opus 4.8的75.1,并超越了GPT-5.5的72.6。在SWE-bench Pro测试中,GLM-5.2得分62.1,高于GPT-5.5的58.6,并以大幅优势超越前代GLM-5.1的58.4。
正因如此,它成为Artificial Analysis Intelligence Index平台上最好的开源模型,OpenRouter将其归类为与Claude Fable 5处于同一级别。
需要注意的是,GLM-5.2是在华为Ascend(昇腾)芯片上训练的,整个流程中没有英伟达的身影。
Stability AI创始人Emad Mostaque估计,GLM-5.2总训练成本约为2500万美元,其中80%用于训练后阶段。与同类模型相比,这一成本极低。
正如Decrypt今年早些时候报道的那样,智谱AI已经在华为Ascend Atlas服务器上训练图像模型,未使用任何美国芯片。
Snowflake第一时间对GLM-5.2和Opus 4.7进行了测试,结果发现,GLM-5.2经受住了考验。
测试涵盖103项任务,每项任务运行三次,要求模型编写的代码能在DuckDB和Snowflake双平台上运行。当每个模型在每项任务上拥有三次尝试机会时,两者难分伯仲:任务解决率分别为66%和67%。
但在首次尝试的准确率上,两者出现了分化:Opus达到53.7%,而GLM仅为47.6%,这表明GLM的输出稳定性稍逊一筹。
此外,中国模型每项任务平均运行99次,而Opus为80次;GLM消耗了8.6亿个token,几乎是Opus(4.39亿个)的两倍。
AI研究员Nathan Lambert表示:“几乎所有我尊重的AI评论界和研究界人士都亲自使用了GLM-5.2,用后都称赞了这款模型。开源模型在社区中引发如此集中讨论,此前只出现过一次——DeepSeek R1。这不是一个我轻易做出的比较,当我将Kimi K2的发布比作一个‘DeepSeek时刻’,GLM-5.2已经远远超越了那个时刻。”
目前看来,GLM-5.2至少与谷歌提供的产品一样好,甚至可能更好——这在几个月前听起来还是个很奇怪的结论。
随着AI能力的每一次跃升,价格实惠、灵活且开源的模型都紧随其后,曾经部署成本高昂的东西变得相当便宜。美国鼓吹“国家安全”,可能只是自身优势在缩小,而不是扩大,这本质上是一种被追赶者的忧虑。(小刀)





