GLM 5.2 基準測試:實測表現到底如何
Jun 24, 2026

GLM 5.2 基準測試:實測表現到底如何

GLM 5.2 跑分解析:SWE-bench Pro 62.1、FrontierSWE 74.4,贏過 GPT-5.5、緊追 Opus 4.8,價格只是零頭。看懂分數真正意義。

我以前看到跑分圖表都是直接滑過去。每次模型發表都附上一整面長條圖,而新模型總是「剛好」贏,久了我就學會直接忽略。直到 GLM 5.2 登場,我的整個動態消息都在喊它「打敗了 GPT-5.5」,我才非得搞清楚這是真的,還是只是發表日的噪音。於是我把實際數字全都翻出來——從 Z.AI 官方發布、第三方排行榜,到各家獨立評測——一個個並排對齊。

老實說,結論是這樣:GLM 5.2 是目前在程式設計基準測試上最強的開放權重模型。它在大多數項目上贏過 GPT-5.5,在長程式碼任務上只落後 Claude Opus 4.8 一兩分,而且價格大約只是別人的零頭。 以下逐一拆解每個基準測試到底量的是什麼、GLM 5.2 在哪裡贏、在哪裡仍然輸,以及這對你真正會交給它做的工作意味著什麼。

GLM 5.2 基準測試一覽

如果你只看一張表,就看這張。這些是大家都在盯的智能體程式設計測試組,附上發表時公布的代表性分數:

基準測試GLM 5.2Claude Opus 4.8GPT-5.5
SWE-bench Pro62.169.258.6
FrontierSWE74.475.172.6
Terminal-Bench 2.181.085.084.0
MCP-Atlas(工具使用)76.877.875.3
API 輸入價格 /MTok~$1.40~$5.00~$5.00
開放權重是(MIT)

以上數字反映截至 2026 年 6 月的 Z.AI 官方發布與第三方排行榜。基準測試每週都在變動,方法學也各有不同——引用前請先到各廠商頁面核對最新數據。

規律一眼就看得出來:在真正攸關實際程式設計的測試組上,GLM 5.2 高於 GPT-5.5只略低於 Opus 4.8——而且還是開放權重、便宜得多。接著我們逐列拆解背後的細節。

程式設計基準測試:贏過 GPT-5.5、緊追 Opus

大家最常引用的兩個分數是 SWE-bench Pro(模型能否解決真實的 GitHub issue?)與 Terminal-Bench 2.1(它能否操作真實 shell 把事情做完?)。

  • SWE-bench Pro:62.1。 這微幅超越 GPT-5.5(58.6),更值得注意的是,它大幅跳過自家前代 GLM 5.1(58.4)。在原始分數上 Opus 4.8 仍然領先,但 GLM 5.2 是第一個追到肉搏範圍的開放模型。
  • Terminal-Bench 2.1:81.0。 這才是真正讓我意外的結果。GLM 5.1 在同一測試上大約只拿 62 分;5.2 一舉躍上 81.0,落在 Opus 4.8(85.0)和 GPT-5.5(84.0)後方僅幾分。在智能體終端機任務上接近 20 分的世代躍進,是這批數字裡最大的看點。

對日常程式設計的啟示是:在「解決這個 issue、跑測試、修好那個 shell 指令」這類填滿真實衝刺週期的工作上,GLM 5.2 現在已經和封閉前沿模型同場競技了。

長程基準測試:差距浮現之處

這是大多數發表文都會輕描淡寫帶過的老實部分。任務愈長、愈難,封閉前沿就愈是拉開——而 GLM 5.2 的數字也如實反映了這點。

基準測試GLM 5.2Claude Opus 4.8GPT-5.5
FrontierSWE74.475.172.6
PostTrainBench34.337.228.4
SWE-Marathon13.026.012.0

FrontierSWE(貼近真實的長程程式設計)上,GLM 5.2(74.4)與 Opus 4.8(75.1)幾乎打平,並甩開 GPT-5.5——確實亮眼。在 PostTrainBench 上它守住第二,同樣領先 GPT-5.5。但看看 SWE-Marathon,這種長達數小時的工程苦工:Opus 4.8(26.0)大約是 GLM 5.2(13.0)的兩倍。這就是「最難的 10%」在數據裡現形——當任務橫跨數小時、數十個步驟,高階封閉推理模型仍有實打實的優勢。

我把兩個模型放在 40 個真實 pull request 上正面對決時,看到的也是同樣狀況:GLM 5.2 在日常工作上與 Opus 平手,只在最棘手、最長的問題上落後。想看這份拆解,我寫在這裡:GLM 5.2 對決 Claude Opus 4.8:程式設計實戰比較

工具使用、智能體與推理

程式設計不是故事的全部——智能體工作流的成敗繫於工具呼叫,而有些任務需要的是純粹的推理。

  • MCP-Atlas:76.8。 在這項工具使用評測上,GLM 5.2 勝過 GPT-5.5(75.3),略低於 Opus 4.8(77.8)。對智能體迴圈來說,可靠的函式呼叫比排行榜上的一分更重要,而這個差距已經接近到可算打平。
  • Tool-Decathlon:48.2。 這是另一個老實的失分項。在這個更難、更廣的工具基準上,Opus 4.8(59.9)和 GPT-5.5(55.6)都明顯領先。複雜的多工具協同調度仍是弱點。
  • 推理: 在 AIME 2026(競賽數學)上 GLM 5.2 拿下 99.2,微幅超過 GPT-5.5(98.3)。在 GPQA-Diamond(研究所等級科學)上它拿 91.2,落後於 Opus 與 GPT-5.5 同時達到的 93.6。翻譯一下:它在結構化數學上表現出色,在最艱深的知識題上則差了一步。

開放權重之冠

從個別測試拉遠來看,有一個事實屹立不搖:GLM 5.2 是獨立 Artificial Analysis Intelligence Index 上的 開放權重模型領頭羊(v4.1 拿下 51 分),領先 MiniMax-M3、DeepSeek V4 Pro、Kimi K2.6 等其他開放模型。它也在 Design Arena 的程式碼類別拿下榜首,並在 BenchLM 這類綜合排行榜上躋身所有模型——無論開放或封閉——的前段班。

沒有任何一個你能下載、自行架設的模型,能像它這樣貼近封閉前沿。這才是這些基準測試真正想說的重點。

成本面:同級實力,價格只是零頭

基準測試不必算預算,但你的團隊得算——而這正是 GLM 5.2 從「有意思」變成「該下決定」的地方。它的 API 輸入價格落在大約 每百萬 token 1.40 美元,相對於 Opus 4.8 與 GPT-5.5 兩者的約 5.00 美元。VentureBeat 把輸入輸出混合起來的整體差距,估算為 GPT-5.5 成本的約六分之一。

把這個擺在分數旁邊看:在大多數程式設計工作上,你拿到的是只差前沿一兩分的表現,價格卻只要三分之一到六分之一。正是這個比值,讓開放權重之冠不只是一座獎盃。

這些基準測試對你的工作究竟意味著什麼

分數是抽象概念。以下是我會如何把它們翻譯成路由決策:

  1. 日常程式設計(佔 90%)——issue、重構、測試、膠水程式碼、終端機工作。GLM 5.2 的 SWE-bench Pro、Terminal-Bench 與 FrontierSWE 數字說明它能跟上前沿。預設就用它。
  2. 馬拉松任務(最難的 10%)——長達數小時、多步驟的工程,SWE-Marathon 與 Tool-Decathlon 把差距暴露出來。為這些任務留一個高階封閉模型待命。
  3. 成本敏感或高用量管線——這個價格比值讓 GLM 5.2 成為理所當然的預設,只在罕見的硬骨頭上才升級。

唯一沒有任何基準測試能捕捉的,是某個模型用在你的程式碼上是什麼感覺。一個分數是別人測試集上的平均值;你的儲存庫、你的提示詞、你的邊角案例,才是你真正要交付的東西。

自己測試 GLM 5.2 最快的方法

讀排行榜是一回事——看著一個模型處理你自己的任務又是另一回事。開放權重模型麻煩的地方在於,「正規」跑法通常意味著下載權重或接好 API 金鑰,而大多數人就卡在這一步。

這些你全都可以跳過。glm5.app 讓你直接在瀏覽器裡與 GLM 5.2 對話——免安裝、免金鑰、免設定。貼上你待辦清單裡的一張真實工單,看它怎麼寫程式、怎麼規劃,親自評斷它的日常程式設計品質,而不是只信一張圖。

如果你想實際感受 GLM 5.2 相對於前沿落在哪,這就是最快的路徑:在 glm5.app 免費試用 GLM 5.2,讓你自己的任務來下定論。

常見問題

在基準測試上,GLM 5.2 比 GPT-5.5 更好嗎? 在大多數程式設計與長程測試組上,是的——它在 SWE-bench Pro(62.1 對 58.6)、FrontierSWE(74.4 對 72.6)和 MCP-Atlas 上都領先 GPT-5.5,而且便宜得多。

GLM 5.2 比 Claude Opus 4.8 更好嗎? 論原始分數則否。Opus 4.8 在大多數基準上仍略勝一籌,並在最艱難的數小時任務(SWE-Marathon、Tool-Decathlon)上明顯拉開。GLM 5.2 已經夠接近,以至於在日常程式設計上差距幾乎看不出來——而且價格只是零頭。

GLM 5.2 的 SWE-bench Pro 分數是多少? 62.1,是第一個真正逼近封閉前沿的開放權重模型,也明顯超越 GLM 5.1 的 58.4。

這些 GLM 5.2 的跑分數字可靠嗎? 它們來自 Z.AI 官方發布與獨立排行榜,但基準測試變動很快、方法各異。請把它們當作一張快照,並到各廠商頁面核對最新數據。

GLM 5.2 在開放模型裡排第幾? 第一。它在 Artificial Analysis Intelligence Index 上居開放權重模型之冠,並在 Design Arena 的程式碼類別領先。

我要怎麼免設定就測試 GLM 5.2?glm5.app 在瀏覽器裡免費與它對話——免 API 金鑰、免安裝,什麼都不用下載。

結論

那麼 GLM 5.2 實測表現到底如何?它就是那個終於把差距補上的開放權重模型:在大多數程式設計基準上領先 GPT-5.5,在長程工作上與 Claude Opus 4.8 只差一兩分,唯有在最艱難的數小時任務上才明顯落後——而這一切都只要前沿的零頭價格。對於填滿多數開發者日常的工作,分數說明它是一個你還能自行掌控、卻具前沿等級的預設選擇。

但基準測試是別人任務上的平均值。唯一重要的分數,是它如何處理你的任務——所以拿你自己的提示詞跑跑看,免金鑰、免設定,就在這裡:在 glm5.app 免費試用 GLM 5.2

立即開始使用 GLM 5

免費試用 GLM 5 — 推理、程式碼生成、智慧代理與影像生成一站式平台。