Jeg plejede at scrolle lige forbi benchmark-grafer. Hver modellancering kommer med en mur af søjlediagrammer, hvor den nye model belejligt vinder, så jeg havde lært at ignorere dem. Så landede GLM 5.2, hele mit feed begyndte at råbe, at den «slog GPT-5.5», og jeg var nødt til at vide, om det var ægte eller bare lanceringsstøj. Så jeg hentede de faktiske tal frem – fra Z.AIs officielle udgivelse, tredjeparts-ledertavler og uafhængige anmeldelser – og stillede dem op side om side.
Her er den ærlige udlægning: GLM 5.2 er den stærkeste model med åbne vægte på kode-benchmarks lige nu. Den slår GPT-5.5 på de fleste af dem, lander inden for et eller to point fra Claude Opus 4.8 på langsigtet kodning og gør det til omtrent en brøkdel af prisen. Nedenfor er, hvad hver benchmark faktisk måler, hvor GLM 5.2 vinder, hvor den stadig taber, og hvad det betyder for det arbejde, du reelt ville give den.
GLM 5.2 benchmarks på et øjeblik
Læser du én tabel, så læs denne. Det er de agentiske kode-suiter, alle holder øje med, med topscorerne rapporteret ved lancering:
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas (værktøjsbrug) | 76.8 | 77.8 | 75.3 |
| API-inputpris /MTok | ~$1.40 | ~$5.00 | ~$5.00 |
| Åbne vægte | Ja (MIT) | Nej | Nej |
Tallene afspejler Z.AIs officielle udgivelse og tredjeparts-ledertavler pr. juni 2026. Benchmarks ændrer sig ugentligt, og metoderne varierer – verificér de aktuelle tal på hver leverandørs side, før du citerer dem.
Mønsteret springer straks i øjnene: GLM 5.2 ligger over GPT-5.5 og lige under Opus 4.8 på de suiter, der betyder noget for ægte kodning – samtidig med at den er åben i vægtene og langt billigere. Lad os nu bryde ned, hvad der ligger bag hver række.
Kode-benchmarks: Slår GPT-5.5, jager Opus
De to scorer, folk citerer mest, er SWE-bench Pro (kan modellen løse ægte GitHub-sager?) og Terminal-Bench 2.1 (kan den arbejde i en ægte shell for at få en opgave løst?).
- SWE-bench Pro: 62.1. Det går lige akkurat forbi GPT-5.5 (58.6) og, mere sigende, springer forbi sin egen forgænger GLM 5.1 (58.4). Opus 4.8 fører stadig på det rene tal her, men GLM 5.2 er den første åbne model inden for slagvidde.
- Terminal-Bench 2.1: 81.0. Det er resultatet, der faktisk overraskede mig. GLM 5.1 scorede omkring 62 på samme test; 5.2 springer til 81.0 og lander nogle få point bag Opus 4.8 (85.0) og GPT-5.5 (84.0). Et generationsspring på næsten 20 point på agentisk terminalarbejde er den største enkeltsag i disse tal.
Konklusionen for hverdagskodning: på den slags «løs denne sag, kør testene, ret shell-kommandoen»-arbejde, der fylder en rigtig sprint, spiller GLM 5.2 nu i samme liga som de lukkede frontmodeller.
Langsigtede benchmarks: Hvor kløften viser sig
Det er den ærlige del, de fleste lanceringsindlæg pynter på. Jo længere og hårdere opgaven er, jo mere trækker den lukkede front stadig fra – og GLM 5.2-tallene viser det.
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
På FrontierSWE, realistisk langsigtet kodning, ender GLM 5.2 (74.4) næsten uafgjort med Opus 4.8 (75.1) og overhaler GPT-5.5 – ægte imponerende. På PostTrainBench holder den andenpladsen, igen foran GPT-5.5. Men se på SWE-Marathon, det flertimers ingeniørslid: Opus 4.8 (26.0) er omtrent det dobbelte af GLM 5.2 (13.0). Det er de «hårde 10 procent», der dukker op i dataene – når en opgave strækker sig over timer og snesevis af trin, har den dyre lukkede ræsonnent stadig et reelt forspring.
Jeg så det samme, da jeg testede begge modeller mod hinanden på 40 ægte pull requests: GLM 5.2 matchede Opus på hverdagsarbejdet og kom kun bagud på de mest indviklede, længste problemer. Vil du have den gennemgang, skrev jeg den op her: GLM 5.2 mod Claude Opus 4.8: Kodning, sammenlignet.
Værktøjsbrug, agenter og ræsonnement
Kodning er ikke hele historien – agent-arbejdsgange står og falder på værktøjskald, og nogle opgaver kræver rent ræsonnement.
- MCP-Atlas: 76.8. På denne værktøjsbrug-evaluering scorer GLM 5.2 højere end GPT-5.5 (75.3) og ligger et hårsbredde under Opus 4.8 (77.8). For agent-løkker betyder pålideligt funktionskald mere end et point på ledertavlen, og dette er tæt nok på til at kalde det lige op.
- Tool-Decathlon: 48.2. Her er den anden ærlige forbier. På denne hårdere, bredere værktøjs-benchmark trækker både Opus 4.8 (59.9) og GPT-5.5 (55.6) tydeligt fra. Kompleks orkestrering af mange værktøjer er stadig et svagt punkt.
- Ræsonnement: På AIME 2026 (konkurrencematematik) noterer GLM 5.2 99.2 og skubber forbi GPT-5.5 (98.3). På GPQA-Diamond (videnskab på ph.d.-niveau) scorer den 91.2, bag de 93.6, som både Opus og GPT-5.5 rammer. Oversat: den er fremragende til struktureret matematik, et hak bagud på de allersværeste vidensspørgsmål.
Kronen for åbne vægte
Zoom ud fra de enkelte tests, og ét faktum står tilbage: GLM 5.2 er den førende model med åbne vægte på det uafhængige Artificial Analysis Intelligence Index (51 på v4.1), foran andre åbne modeller som MiniMax-M3, DeepSeek V4 Pro og Kimi K2.6. Den tog også førstepladsen i Design Arenas kodekategorier og rangerer blandt den øverste håndfuld af alle modeller – åbne eller lukkede – på aggregerede ledertavler som BenchLM.
Ingen anden model, du kan downloade og hoste selv, er så tæt på den lukkede front. Det er overskriften, disse benchmarks egentlig fortæller.
Omkostningsvinklen: Samme liga, en brøkdel af prisen
Benchmarks kører ikke på et budget, men det gør dit team – og det er her, GLM 5.2 holder op med at være interessant og begynder at blive en beslutning. API-inputprisen lander omkring 1,40 dollar per million tokens mod cirka 5,00 dollar for både Opus 4.8 og GPT-5.5. VentureBeat vurderede det samlede gab, med input og output blandet, til omkring en sjettedel af omkostningen ved GPT-5.5.
Sæt det ved siden af scorerne: du får ydelse inden for et eller to point fra fronten på det meste kodearbejde, for et sted mellem en tredjedel og en sjettedel af prisen. Det er forholdstallet, der gør kronen for åbne vægte til mere end et trofæ.
Hvad disse benchmarks faktisk betyder for dit arbejde
Scorer er abstraktioner. Sådan ville jeg oversætte dem til en routing-beslutning:
- Hverdagskodning (de 90 procent) — sager, refaktoreringer, tests, limkode, terminalarbejde. GLM 5.2s tal på SWE-bench Pro, Terminal-Bench og FrontierSWE siger, at den holder trit med fronten. Gør den til standardvalget.
- Maratonopgaver (de hårde 10 procent) — flertimers, mangetrins ingeniørarbejde, hvor SWE-Marathon og Tool-Decathlon afslører kløften. Hold en dyr lukket model i beredskab til disse.
- Omkostningsfølsomme eller højvolumen-pipelines — prisforholdet gør GLM 5.2 til det oplagte standardvalg, med eskalering kun for det sjældne svære tilfælde.
Det ene, ingen benchmark fanger, er, hvordan en model føles på din kode. En score er et gennemsnit over en andens testsæt; dit repo, dine prompts og dine grænsetilfælde er det, du reelt leverer.
Den hurtigste måde at teste GLM 5.2 selv
At læse en ledertavle er én ting – at se en model håndtere din egen opgave er noget andet. Hagen ved en model med åbne vægte er, at den «rigtige» måde at køre den på normalt betyder at downloade vægte eller koble en API-nøgle på, og de fleste går i stå lige der.
Du kan springe det hele over. glm5.app lader dig chatte med GLM 5.2 direkte i browseren – ingen installation, ingen nøgle, ingen opsætning. Indsæt en ægte sag fra din backlog, se hvordan den koder og planlægger, og bedøm hverdagskode-kvaliteten selv i stedet for at stole på en graf.
Vil du fornemme, hvor GLM 5.2 lander i forhold til fronten, er det den hurtigste vej: prøv GLM 5.2 gratis på glm5.app og lad din egen opgave afgøre det.
Ofte stillede spørgsmål
Er GLM 5.2 bedre end GPT-5.5 på benchmarks? På de fleste kode- og langsigtede suiter, ja – den fører over GPT-5.5 på SWE-bench Pro (62.1 mod 58.6), FrontierSWE (74.4 mod 72.6) og MCP-Atlas, samtidig med at den koster langt mindre.
Er GLM 5.2 bedre end Claude Opus 4.8? Ikke på rene scorer. Opus 4.8 ligger stadig foran på de fleste benchmarks og trækker tydeligt fra på de hårdeste flertimers-opgaver (SWE-Marathon, Tool-Decathlon). GLM 5.2 er tæt nok på til, at kløften sjældent viser sig i hverdagskodning – til en brøkdel af prisen.
Hvad er GLM 5.2s SWE-bench Pro-score? 62.1, den første model med åbne vægte, der reelt nærmer sig den lukkede front, og et tydeligt spring over GLM 5.1s 58.4.
Er disse GLM 5.2 benchmark-tal pålidelige? De kommer fra Z.AIs officielle udgivelse og uafhængige ledertavler, men benchmarks bevæger sig hurtigt, og metoderne varierer. Behandl dem som et øjebliksbillede og verificér de aktuelle tal på hver leverandørs side.
Hvor rangerer GLM 5.2 blandt åbne modeller? Først. Den topper Artificial Analysis Intelligence Index for modeller med åbne vægte og fører Design Arenas kodekategorier.
Hvordan kan jeg teste GLM 5.2 uden nogen opsætning? Chat med den gratis i browseren på glm5.app – ingen API-nøgle, ingen installation, intet at downloade.
Bundlinjen
Så hvordan præsterer GLM 5.2 egentlig? Den er modellen med åbne vægte, der endelig lukkede kløften: foran GPT-5.5 på de fleste kode-benchmarks, inden for et eller to point fra Claude Opus 4.8 på langsigtet arbejde og kun tydeligt bagud på de allersværeste flertimers-opgaver – alt til en brøkdel af omkostningen. For det arbejde, der fylder de fleste udvikleres dage, siger scorerne, at den er et frontklasse-standardvalg, du også kan køre på din egen måde.
Men en benchmark er et gennemsnit over en andens opgaver. Den eneste score, der betyder noget, er, hvordan den håndterer dine – så kør din egen prompt igennem den, ingen nøgler, ingen opsætning, lige her: prøv GLM 5.2 gratis på glm5.app.


