Avant, je passais directement à côté des graphiques de benchmarks. Chaque lancement de modèle s'accompagne d'un mur d'histogrammes où, comme par hasard, le nouveau modèle l'emporte, alors j'avais appris à les ignorer. Puis GLM 5.2 est arrivé, tout mon fil s'est mis à clamer qu'il « battait GPT-5.5 », et il fallait que je sache si c'était réel ou juste du bruit de jour de lancement. J'ai donc rassemblé les vrais chiffres — du communiqué officiel de Z.AI, des classements tiers et des analyses indépendantes — et je les ai alignés côte à côte.
Voici la lecture honnête : GLM 5.2 est aujourd'hui le modèle à poids ouverts le plus solide sur les benchmarks de programmation. Il bat GPT-5.5 sur la plupart d'entre eux, se tient à un point ou deux de Claude Opus 4.8 sur la programmation de longue haleine, et le fait pour une fraction du prix. Ci-dessous, ce que mesure réellement chaque benchmark, là où GLM 5.2 gagne, là où il perd encore, et ce que cela signifie pour le travail que vous lui confieriez vraiment.
Les benchmarks de GLM 5.2 en un coup d'œil
Si vous ne lisez qu'un seul tableau, lisez celui-ci. Ce sont les suites de programmation agentique que tout le monde surveille, avec les scores phares annoncés au lancement :
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas (usage d'outils) | 76.8 | 77.8 | 75.3 |
| Prix API en entrée /MTok | ~$1.40 | ~$5.00 | ~$5.00 |
| Poids ouverts | Oui (MIT) | Non | Non |
Les chiffres reflètent le communiqué officiel de Z.AI et les classements tiers en date de juin 2026. Les benchmarks évoluent chaque semaine et les méthodologies diffèrent ; vérifiez les chiffres actuels sur la page de chaque fournisseur avant de les citer.
Le schéma saute aux yeux immédiatement : GLM 5.2 se place au-dessus de GPT-5.5 et juste en dessous d'Opus 4.8 sur les suites qui comptent pour la vraie programmation, tout en étant à poids ouverts et bien moins cher. Décortiquons maintenant ce qui se cache derrière chaque ligne.
Benchmarks de programmation : devant GPT-5.5, à la poursuite d'Opus
Les deux scores que les gens citent le plus sont SWE-bench Pro (le modèle peut-il résoudre de vraies issues GitHub ?) et Terminal-Bench 2.1 (peut-il manier un vrai shell pour mener une tâche à bien ?).
- SWE-bench Pro : 62.1. Cela devance GPT-5.5 (58.6) et, plus révélateur encore, fait un bond par rapport à son propre prédécesseur GLM 5.1 (58.4). Opus 4.8 mène toujours en chiffre brut, mais GLM 5.2 est le premier modèle ouvert à se trouver à portée de tir.
- Terminal-Bench 2.1 : 81.0. C'est le résultat qui m'a vraiment surpris. GLM 5.1 obtenait environ 62 au même test ; 5.2 bondit à 81.0, à quelques points seulement d'Opus 4.8 (85.0) et de GPT-5.5 (84.0). Un bond générationnel de près de 20 points sur le travail agentique en terminal, c'est la plus grosse nouvelle de tous ces chiffres.
À retenir pour la programmation au quotidien : sur ce type de travail « résous cette issue, lance les tests, corrige la commande shell » qui remplit un vrai sprint, GLM 5.2 joue désormais dans la même cour que les modèles frontière fermés.
Benchmarks de longue haleine : là où l'écart se voit
C'est la partie honnête que la plupart des posts de lancement passent sous silence. Plus la tâche est longue et difficile, plus la frontière fermée garde de l'avance, et les chiffres de GLM 5.2 le montrent.
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
Sur FrontierSWE, programmation réaliste de longue haleine, GLM 5.2 (74.4) termine quasiment à égalité avec Opus 4.8 (75.1) et dépasse GPT-5.5 — vraiment impressionnant. Sur PostTrainBench, il garde la deuxième place, là encore devant GPT-5.5. Mais regardez SWE-Marathon, le marathon d'ingénierie de plusieurs heures : Opus 4.8 (26.0) fait à peu près le double de GLM 5.2 (13.0). C'est le « 10 % difficile » qui apparaît dans les données : lorsqu'une tâche s'étale sur des heures et des dizaines d'étapes, le raisonneur fermé haut de gamme conserve un véritable avantage.
J'ai constaté la même chose en testant les deux modèles face à face sur 40 pull requests réelles : GLM 5.2 a égalé Opus sur le travail quotidien et n'a décroché que sur les problèmes les plus épineux et les plus longs. Si vous voulez ce détail, je l'ai rédigé ici : GLM 5.2 face à Claude Opus 4.8 : la programmation comparée.
Usage d'outils, agents et raisonnement
La programmation n'est pas toute l'histoire : les workflows d'agents vivent ou meurent selon l'appel d'outils, et certaines tâches exigent du raisonnement pur.
- MCP-Atlas : 76.8. Sur cette évaluation d'usage d'outils, GLM 5.2 dépasse GPT-5.5 (75.3) et se tient à un cheveu d'Opus 4.8 (77.8). Pour les boucles d'agents, un appel de fonctions fiable compte plus qu'un point au classement, et c'est suffisamment serré pour qu'on parle d'égalité.
- Tool-Decathlon : 48.2. Voici l'autre faiblesse assumée. Sur ce benchmark d'outils plus difficile et plus large, Opus 4.8 (59.9) et GPT-5.5 (55.6) prennent tous deux une avance nette. L'orchestration complexe de plusieurs outils reste un point faible.
- Raisonnement : Sur AIME 2026 (mathématiques de compétition), GLM 5.2 affiche 99.2, devançant de peu GPT-5.5 (98.3). Sur GPQA-Diamond (science de niveau doctoral), il obtient 91.2, derrière le 93.6 qu'atteignent à la fois Opus et GPT-5.5. Traduction : il excelle en mathématiques structurées, mais reste un cran en deçà sur les questions de connaissances les plus ardues.
La couronne des poids ouverts
Prenez du recul par rapport aux tests individuels et un fait s'impose : GLM 5.2 est le modèle à poids ouverts en tête de l'indépendant Artificial Analysis Intelligence Index (51 sur la v4.1), devant d'autres modèles ouverts comme MiniMax-M3, DeepSeek V4 Pro et Kimi K2.6. Il a aussi décroché la première place dans les catégories de code de Design Arena et figure parmi la poignée de meilleurs modèles — ouverts ou fermés — sur les classements agrégés comme BenchLM.
Aucun autre modèle que vous pouvez télécharger et héberger vous-même n'est aussi proche de la frontière fermée. C'est le vrai message de ces benchmarks.
Le facteur coût : la même cour, pour une fraction du prix
Les benchmarks ne tournent pas avec un budget, mais votre équipe, si — et c'est là que GLM 5.2 cesse d'être intéressant pour devenir une décision. Son prix API en entrée se situe autour de $1.40 par million de tokens contre environ $5.00 pour Opus 4.8 comme pour GPT-5.5. VentureBeat a chiffré l'écart total, en combinant entrée et sortie, à environ un sixième du coût de GPT-5.5.
Mettez cela en regard des scores : vous obtenez des performances à un point ou deux de la frontière sur la plupart du travail de programmation, pour un tiers à un sixième du prix. C'est le rapport qui fait de la couronne des poids ouverts bien plus qu'un trophée.
Ce que ces benchmarks signifient vraiment pour votre travail
Les scores sont des abstractions. Voici comment je les traduirais en décision de routage :
- Programmation au quotidien (les 90 %) — issues, refactorisations, tests, code de liaison, travail en terminal. Les chiffres de GLM 5.2 sur SWE-bench Pro, Terminal-Bench et FrontierSWE disent qu'il tiendra le rythme de la frontière. Faites-en votre choix par défaut.
- Tâches marathon (les 10 % difficiles) — ingénierie de plusieurs heures et de nombreuses étapes où SWE-Marathon et Tool-Decathlon mettent l'écart à nu. Gardez un modèle fermé haut de gamme en réserve pour celles-ci.
- Pipelines sensibles au coût ou à fort volume — le rapport de prix fait de GLM 5.2 le choix par défaut évident, en n'escaladant que le rare cas difficile.
La seule chose qu'aucun benchmark ne capture, c'est ce que vaut un modèle sur votre code. Un score est une moyenne sur le jeu de tests de quelqu'un d'autre ; votre dépôt, vos prompts et vos cas limites sont ce que vous mettez réellement en production.
La façon la plus rapide de tester GLM 5.2 vous-même
Lire un classement est une chose ; voir un modèle traiter votre propre tâche en est une autre. Le hic avec un modèle à poids ouverts, c'est que la « bonne » façon de l'exécuter implique généralement de télécharger des poids ou de brancher une clé d'API, et la plupart des gens calent juste là.
Vous pouvez tout sauter. glm5.app vous permet de discuter avec GLM 5.2 directement dans votre navigateur : sans installation, sans clé, sans configuration. Collez un vrai ticket de votre backlog, observez comment il code et planifie, et jugez vous-même la qualité au quotidien plutôt que de vous fier à un graphique.
Si vous voulez sentir où se situe GLM 5.2 par rapport à la frontière, c'est le chemin le plus rapide : essayez GLM 5.2 gratuitement sur glm5.app et laissez votre propre tâche trancher.
Foire aux questions
GLM 5.2 est-il meilleur que GPT-5.5 sur les benchmarks ? Sur la plupart des suites de programmation et de longue haleine, oui : il devance GPT-5.5 sur SWE-bench Pro (62.1 contre 58.6), FrontierSWE (74.4 contre 72.6) et MCP-Atlas, tout en coûtant bien moins cher.
GLM 5.2 est-il meilleur que Claude Opus 4.8 ? Pas en score brut. Opus 4.8 garde l'avantage sur la plupart des benchmarks et se détache nettement sur les tâches les plus dures de plusieurs heures (SWE-Marathon, Tool-Decathlon). GLM 5.2 est suffisamment proche pour qu'au quotidien l'écart se voie rarement — et pour une fraction du prix.
Quel est le score de GLM 5.2 sur SWE-bench Pro ? 62.1, le premier modèle à poids ouverts à vraiment se rapprocher de la frontière fermée, et un bond net par rapport au 58.4 de GLM 5.1.
Ces chiffres de benchmarks de GLM 5.2 sont-ils fiables ? Ils proviennent du communiqué officiel de Z.AI et de classements indépendants, mais les benchmarks évoluent vite et les méthodes varient. Considérez-les comme un instantané et vérifiez les chiffres actuels sur la page de chaque fournisseur.
Où se classe GLM 5.2 parmi les modèles ouverts ? Premier. Il domine l'Artificial Analysis Intelligence Index pour les modèles à poids ouverts et mène les catégories de code de Design Arena.
Comment tester GLM 5.2 sans aucune configuration ? Discutez avec lui gratuitement dans votre navigateur sur glm5.app : sans clé d'API, sans installation, rien à télécharger.
L'essentiel
Alors, comment GLM 5.2 performe-t-il vraiment ? C'est le modèle à poids ouverts qui a enfin comblé l'écart : devant GPT-5.5 sur la plupart des benchmarks de programmation, à un point ou deux de Claude Opus 4.8 sur le travail de longue haleine, et clairement derrière uniquement sur les tâches les plus dures de plusieurs heures — le tout pour une fraction du coût. Pour le travail qui remplit les journées de la plupart des développeurs, les scores disent que c'est un choix par défaut de classe frontière que vous pouvez aussi exécuter à votre façon.
Mais un benchmark est une moyenne sur les tâches de quelqu'un d'autre. Le seul score qui compte, c'est sa façon de traiter les vôtres — alors faites passer votre propre prompt à travers lui, sans clés, sans configuration, ici même : essayez GLM 5.2 gratuitement sur glm5.app.


