我以前总是直接划过基准测试图表。每次模型发布都会附上一整面墙的柱状图,而且新模型总是恰到好处地胜出,所以我早就学会了忽略它们。可当 GLM 5.2 登场,我的整个信息流开始齐声高喊它"跑赢了 GPT-5.5",我就不得不弄清楚这是真的,还是仅仅是发布当天的噪音。于是我把真实的数字翻了出来——从 Z.AI 的官方发布、第三方排行榜以及独立评测中——把它们一一并排对照。
说句实话:GLM 5.2 是目前编程基准测试中最强的开放权重模型。它在大多数项目上跑赢 GPT-5.5,在长程编程上以一两分之差紧追 Claude Opus 4.8,而且只用了大约零头的价格。 下面就来讲清楚每项基准到底测的是什么,GLM 5.2 在哪里胜出、在哪里仍然落败,以及对于你真正会交给它的工作而言,这意味着什么。
GLM 5.2 基准测试一览
如果你只读一张表,就读这一张。这些是人人都在盯着的智能体编程套件,以及发布时公布的核心分数:
| 基准测试 | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas(工具调用) | 76.8 | 77.8 | 75.3 |
| API 输入价格 /MTok | 约 $1.40 | 约 $5.00 | 约 $5.00 |
| 开放权重 | 是(MIT) | 否 | 否 |
数字反映的是截至2026年6月的 Z.AI 官方发布和第三方排行榜。基准每周都在变动,方法论也各不相同——引用之前请在各厂商页面核实当前数值。
规律一眼就能看出来:GLM 5.2 在真正影响实际编程的套件上 高于 GPT-5.5、仅低于 Opus 4.8——同时它是开放权重,价格还便宜得多。现在我们来逐行拆解背后的门道。
编程基准:跑赢 GPT-5.5,紧追 Opus
大家引用最多的两项分数是 SWE-bench Pro(模型能否解决真实的 GitHub issue?)和 Terminal-Bench 2.1(它能否操作真实的 shell 把活干完?)。
- SWE-bench Pro:62.1。 这一分险胜 GPT-5.5(58.6),更说明问题的是,它较自家上一代 GLM 5.1(58.4)实现了跃升。论原始分数 Opus 4.8 在这里仍然领先,但 GLM 5.2 是第一个进入射程的开放模型。
- Terminal-Bench 2.1:81.0。 真正让我吃惊的就是这个结果。GLM 5.1 在同一项测试上约为62分;5.2 一跃达到81.0,落在 Opus 4.8(85.0)和 GPT-5.5(84.0)身后几分。在智能体终端工作上出现接近20分的代际跃升,是这些数字里最大的看点。
对日常编程的启示是:在"解决这个 issue、跑通测试、修好 shell 命令"这类填满真实冲刺的工作上,GLM 5.2 如今已经和闭源前沿模型同台竞技。
长程基准:差距显现之处
这是大多数发布文章一带而过的诚实部分。任务越长越难,闭源前沿就越是拉开身位——而 GLM 5.2 的数字也印证了这一点。
| 基准测试 | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
在贴近现实的长程编程 FrontierSWE 上,GLM 5.2(74.4)与 Opus 4.8(75.1)几乎打平,并越过 GPT-5.5——着实令人印象深刻。在 PostTrainBench 上它守住第二,同样领先 GPT-5.5。但看看 SWE-Marathon 这种长达数小时的工程苦熬:Opus 4.8(26.0)大约是 GLM 5.2(13.0)的两倍。这就是数据里浮现出的"最难的10%"——当一项任务横跨数小时、几十个步骤时,高端的闭源推理模型仍然握有实打实的优势。
我把两个模型在40个真实 pull request 上正面对决时,看到的也是同样的情形:GLM 5.2 在日常工作上与 Opus 持平,只在最棘手、最漫长的问题上才落了下风。如果你想看这份拆解,我写在了这里:GLM 5.2 对比 Claude Opus 4.8:编程实测。
工具调用、智能体与推理
编程不是故事的全部——智能体工作流的成败系于工具调用,而有些任务需要纯粹的推理。
- MCP-Atlas:76.8。 在这项工具调用评测上,GLM 5.2 的得分高于 GPT-5.5(75.3),仅以毫厘之差落在 Opus 4.8(77.8)之下。对智能体循环而言,可靠的函数调用比排行榜上一分更重要,而这个差距已经近到可以算作打平。
- Tool-Decathlon:48.2。 这是另一处诚实的失分。在这项更难、更广的工具基准上,Opus 4.8(59.9)和 GPT-5.5(55.6)都明显领先。复杂的多工具编排仍是它的弱项。
- 推理: 在 AIME 2026(竞赛数学)上 GLM 5.2 拿下99.2,微微越过 GPT-5.5(98.3)。在 GPQA-Diamond(研究生级科学)上它得91.2,落后于 Opus 和 GPT-5.5 同时达到的93.6。翻译过来就是:它在结构化数学上表现出色,在最难的知识题上则稍逊一筹。
开放权重的王冠
从单项测试拉远视角,有一个事实格外醒目:GLM 5.2 是独立的 Artificial Analysis Intelligence Index 上 领先的开放权重模型(v4.1 得51分),力压 MiniMax-M3、DeepSeek V4 Pro、Kimi K2.6 等其他开放模型。它还在 Design Arena 的代码类别中拿下头名,并在 BenchLM 这类综合排行榜上跻身全部模型——无论开放还是闭源——的前列。
没有任何一个你能下载并自托管的模型,能像它这样逼近闭源前沿。这才是这些基准真正想说的头条。
成本视角:同台竞技,价格只是零头
基准测试不用算预算,但你的团队要——而正是在这里,GLM 5.2 从"有意思"变成了"一个决定"。它的 API 输入价格落在 每百万 token 约 $1.40,而 Opus 4.8 和 GPT-5.5 两者都约为 $5.00。VentureBeat 把综合输入与输出的总体差距估算为约 GPT-5.5 成本的六分之一。
把它摆在分数旁边看:在大多数编程工作上,你拿到的是与前沿相差一两分的表现,价格却只在三分之一到六分之一之间。正是这个比例,让开放权重的王冠不只是一座奖杯。
这些基准对你的工作究竟意味着什么
分数是抽象的。我会这样把它们翻译成一个路由决策:
- 日常编程(90%) — issue、重构、测试、胶水代码、终端工作。GLM 5.2 的 SWE-bench Pro、Terminal-Bench 和 FrontierSWE 数字表明它能跟上前沿。把它设为默认。
- 马拉松任务(最难的10%) — 长达数小时、多步骤的工程,正是 SWE-Marathon 和 Tool-Decathlon 暴露差距之处。为这些任务备好一个高端闭源模型待命。
- 对成本敏感或高吞吐的流水线 — 价格比让 GLM 5.2 成为理所当然的默认,只在偶尔的难题上才向上升级。
任何基准都捕捉不到的唯一一点,是这个模型在 你的 代码上感觉如何。一个分数是别人测试集上的平均值;而你真正交付的,是你的仓库、你的提示词和你的边界情形。
自己上手测试 GLM 5.2 的最快方式
读排行榜是一回事——看一个模型处理你自己的任务又是另一回事。开放权重模型的麻烦在于,"正经"的运行方式通常意味着下载权重或接上 API key,而大多数人就卡在那一步。
这些你统统可以跳过。glm5.app 让你直接在浏览器里和 GLM 5.2 聊天——无需安装、无需 key、无需配置。从你的待办里贴一个真实的工单进去,看它如何编码、如何规划,用你自己的判断衡量日常编程的质量,而不是去相信一张图表。
如果你想亲身感受 GLM 5.2 相对前沿落在哪里,这就是最快的路径:在 glm5.app 免费试用 GLM 5.2,让你自己的任务来下结论。
常见问题
GLM 5.2 在基准测试上比 GPT-5.5 更强吗? 在大多数编程与长程套件上,是的——它在 SWE-bench Pro(62.1 对 58.6)、FrontierSWE(74.4 对 72.6)和 MCP-Atlas 上领先 GPT-5.5,而且成本低得多。
GLM 5.2 比 Claude Opus 4.8 更强吗? 论原始分数不是。Opus 4.8 在大多数基准上仍微微领先,并在最难的数小时任务(SWE-Marathon、Tool-Decathlon)上明显拉开。GLM 5.2 已经足够接近,在日常编程中差距很少显现——而且价格只是零头。
GLM 5.2 的 SWE-bench Pro 分数是多少? 62.1,这是第一个真正逼近闭源前沿的开放权重模型,较 GLM 5.1 的58.4实现了明显跃升。
这些 GLM 5.2 基准数字可靠吗? 它们来自 Z.AI 的官方发布和独立排行榜,但基准变动很快,方法也各异。请把它们当作一张快照,并在各厂商页面核实当前数值。
GLM 5.2 在开放模型中排第几? 第一。它在开放权重模型的 Artificial Analysis Intelligence Index 上居首,并在 Design Arena 的代码类别中领跑。
怎样不做任何配置就测试 GLM 5.2? 在 glm5.app 用浏览器免费聊天——无需 API key、无需安装、无需下载任何东西。
结语
那么 GLM 5.2 的真实表现究竟如何?它就是那个终于把差距补上的开放权重模型:在大多数编程基准上领先 GPT-5.5,在长程工作上以一两分之差紧追 Claude Opus 4.8,只在最难的数小时任务上才明显落后——而且这一切都只用了零头的成本。对于填满大多数开发者每一天的工作,分数告诉我们:它是一个你还能按自己方式运行的前沿级默认选项。
但基准是别人任务上的平均值。唯一重要的分数,是它如何处理你的任务——所以把你自己的提示词丢进去跑一跑,无需 key、无需配置,就在这里:在 glm5.app 免费试用 GLM 5.2。


