Antes pasaba de largo ante las gráficas de benchmarks. Cada lanzamiento de modelo llega con un muro de barras donde, qué casualidad, el nuevo modelo siempre gana, así que había aprendido a ignorarlas. Entonces apareció GLM 5.2, todo mi feed empezó a gritar que estaba "superando a GPT-5.5" y necesitaba saber si eso era real o solo ruido de día de lanzamiento. Así que reuní los números de verdad —del comunicado oficial de Z.AI, de tablas de clasificación de terceros y de análisis independientes— y los puse uno al lado del otro.
Esta es la lectura honesta: GLM 5.2 es ahora mismo el modelo de pesos abiertos más fuerte en benchmarks de programación. Supera a GPT-5.5 en la mayoría de ellos, se queda a uno o dos puntos de Claude Opus 4.8 en programación de largo recorrido y lo hace por una fracción del precio. A continuación verás qué mide realmente cada benchmark, dónde gana GLM 5.2, dónde sigue perdiendo y qué significa eso para el trabajo que de verdad le encargarías.
Benchmarks de GLM 5.2 de un vistazo
Si solo lees una tabla, lee esta. Son las suites de programación agéntica que todo el mundo observa, con las puntuaciones destacadas comunicadas en el lanzamiento:
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas (uso de herramientas) | 76.8 | 77.8 | 75.3 |
| Precio API de entrada /MTok | ~$1.40 | ~$5.00 | ~$5.00 |
| Pesos abiertos | Sí (MIT) | No | No |
Las cifras reflejan el comunicado oficial de Z.AI y las tablas de clasificación de terceros a fecha de junio de 2026. Los benchmarks cambian cada semana y las metodologías difieren; verifica las cifras actuales en la página de cada proveedor antes de citarlas.
El patrón salta a la vista de inmediato: GLM 5.2 se sitúa por encima de GPT-5.5 y justo por debajo de Opus 4.8 en las suites que importan para programar de verdad, además de ser de pesos abiertos y mucho más barato. Ahora desglosemos qué hay detrás de cada fila.
Benchmarks de programación: supera a GPT-5.5, persigue a Opus
Las dos puntuaciones que más se citan son SWE-bench Pro (¿puede el modelo resolver issues reales de GitHub?) y Terminal-Bench 2.1 (¿puede manejar una shell de verdad para completar una tarea?).
- SWE-bench Pro: 62.1. Eso adelanta a GPT-5.5 (58.6) y, más revelador aún, da un salto sobre su propio predecesor GLM 5.1 (58.4). Opus 4.8 sigue liderando en el número bruto, pero GLM 5.2 es el primer modelo abierto que se le acerca de verdad.
- Terminal-Bench 2.1: 81.0. Este es el resultado que de verdad me sorprendió. GLM 5.1 sacó alrededor de 62 en la misma prueba; 5.2 salta a 81.0, quedando a pocos puntos de Opus 4.8 (85.0) y GPT-5.5 (84.0). Un salto generacional de casi 20 puntos en trabajo agéntico de terminal es la mayor noticia de todos estos números.
La conclusión para el día a día programando: en ese tipo de trabajo de "resuelve este issue, ejecuta los tests, arregla el comando de la shell" que llena un sprint real, GLM 5.2 ya juega en la misma liga que los modelos frontera cerrados.
Benchmarks de largo recorrido: dónde se nota la diferencia
Esta es la parte honesta que la mayoría de los posts de lanzamiento pasan por alto. Cuanto más larga y difícil es la tarea, más se adelanta la frontera cerrada, y los números de GLM 5.2 lo demuestran.
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
En FrontierSWE, programación realista de largo recorrido, GLM 5.2 (74.4) acaba casi empatado con Opus 4.8 (75.1) y supera a GPT-5.5; genuinamente impresionante. En PostTrainBench mantiene el segundo puesto, de nuevo por delante de GPT-5.5. Pero fíjate en SWE-Marathon, la maratón de ingeniería de varias horas: Opus 4.8 (26.0) es aproximadamente el doble que GLM 5.2 (13.0). Ese es el "10% difícil" apareciendo en los datos: cuando una tarea se extiende durante horas y docenas de pasos, el razonador cerrado premium sigue teniendo una ventaja real.
Vi lo mismo cuando probé ambos modelos cara a cara en 40 pull requests reales: GLM 5.2 igualó a Opus en el trabajo del día a día y solo se quedó atrás en los problemas más espinosos y largos. Si quieres ese desglose, lo escribí aquí: GLM 5.2 frente a Claude Opus 4.8: programación comparada.
Uso de herramientas, agentes y razonamiento
Programar no es toda la historia: los flujos de trabajo agénticos viven o mueren según la invocación de herramientas, y algunas tareas necesitan razonamiento puro.
- MCP-Atlas: 76.8. En esta evaluación de uso de herramientas GLM 5.2 supera a GPT-5.5 (75.3) y se queda a un pelo de Opus 4.8 (77.8). Para bucles de agentes, una invocación de funciones fiable importa más que un punto en la tabla, y esto está lo bastante igualado como para considerarlo empate.
- Tool-Decathlon: 48.2. Aquí está el otro fallo honesto. En este benchmark de herramientas más difícil y amplio, tanto Opus 4.8 (59.9) como GPT-5.5 (55.6) se adelantan con claridad. La orquestación compleja de múltiples herramientas sigue siendo un punto débil.
- Razonamiento: En AIME 2026 (matemáticas de competición) GLM 5.2 anota 99.2, adelantando por poco a GPT-5.5 (98.3). En GPQA-Diamond (ciencia de nivel de posgrado) saca 91.2, por detrás del 93.6 que alcanzan tanto Opus como GPT-5.5. Traducción: es excelente en matemáticas estructuradas, un paso por detrás en las preguntas de conocimiento más difíciles.
La corona de los pesos abiertos
Aléjate de las pruebas individuales y queda un hecho claro: GLM 5.2 es el modelo de pesos abiertos líder en el independiente Artificial Analysis Intelligence Index (51 en la v4.1), por delante de otros modelos abiertos como MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6. También se llevó el primer puesto en las categorías de código de Design Arena y figura entre el puñado de mejores modelos —abiertos o cerrados— en tablas de clasificación agregadas como BenchLM.
Ningún otro modelo que puedas descargar y alojar por tu cuenta está tan cerca de la frontera cerrada. Eso es lo que de verdad cuentan estos benchmarks.
El factor coste: la misma liga, por una fracción del precio
Los benchmarks no funcionan con un presupuesto, pero tu equipo sí, y aquí es donde GLM 5.2 deja de ser interesante y empieza a ser una decisión. Su precio API de entrada se sitúa en torno a $1.40 por millón de tokens frente a unos $5.00 tanto de Opus 4.8 como de GPT-5.5. VentureBeat cifró la diferencia total, combinando entrada y salida, en aproximadamente una sexta parte del coste de GPT-5.5.
Pon eso junto a las puntuaciones: estás obteniendo un rendimiento a uno o dos puntos de la frontera en la mayoría del trabajo de programación, por entre un tercio y un sexto del precio. Esa es la proporción que convierte la corona de pesos abiertos en algo más que un trofeo.
Qué significan de verdad estos benchmarks para tu trabajo
Las puntuaciones son abstracciones. Así es como yo las traduciría en una decisión de enrutamiento:
- Programación del día a día (el 90%) — issues, refactorizaciones, tests, código de pegamento, trabajo de terminal. Los números de GLM 5.2 en SWE-bench Pro, Terminal-Bench y FrontierSWE dicen que seguirá el ritmo de la frontera. Conviértelo en tu opción por defecto.
- Tareas maratón (el 10% difícil) — ingeniería de varias horas y muchos pasos donde SWE-Marathon y Tool-Decathlon dejan la diferencia al descubierto. Mantén un modelo cerrado premium en reserva para estas.
- Pipelines sensibles al coste o de gran volumen — la proporción de precio convierte a GLM 5.2 en la opción por defecto obvia, escalando solo el raro caso difícil.
Lo único que ningún benchmark captura es cómo se siente un modelo con tu código. Una puntuación es un promedio sobre el conjunto de pruebas de otra persona; tu repositorio, tus prompts y tus casos límite son lo que de verdad envías a producción.
La forma más rápida de probar GLM 5.2 tú mismo
Leer una tabla de clasificación es una cosa; ver cómo un modelo maneja tu propia tarea es otra. El problema con un modelo de pesos abiertos es que la forma "correcta" de ejecutarlo suele implicar descargar pesos o conectar una clave de API, y la mayoría de la gente se queda atascada justo ahí.
Puedes saltarte todo eso. glm5.app te permite chatear con GLM 5.2 directamente en tu navegador: sin instalación, sin clave, sin configuración. Pega un ticket real de tu backlog, observa cómo programa y planifica, y juzga por ti mismo la calidad del día a día en lugar de fiarte de una gráfica.
Si quieres sentir dónde se sitúa GLM 5.2 respecto a la frontera, ese es el camino más rápido: prueba GLM 5.2 gratis en glm5.app y deja que tu propia tarea decida.
Preguntas frecuentes
¿Es GLM 5.2 mejor que GPT-5.5 en benchmarks? En la mayoría de las suites de programación y largo recorrido, sí: lidera frente a GPT-5.5 en SWE-bench Pro (62.1 frente a 58.6), FrontierSWE (74.4 frente a 72.6) y MCP-Atlas, además de costar mucho menos.
¿Es GLM 5.2 mejor que Claude Opus 4.8? No en puntuación bruta. Opus 4.8 sigue adelantándose en la mayoría de los benchmarks y se distancia con claridad en las tareas más duras de varias horas (SWE-Marathon, Tool-Decathlon). GLM 5.2 está lo bastante cerca como para que, en el día a día programando, la diferencia rara vez se note, y por una fracción del precio.
¿Cuál es la puntuación de GLM 5.2 en SWE-bench Pro? 62.1, el primer modelo de pesos abiertos que de verdad se acerca a la frontera cerrada, y un salto claro sobre el 58.4 de GLM 5.1.
¿Son fiables estas cifras de los benchmarks de GLM 5.2? Provienen del comunicado oficial de Z.AI y de tablas de clasificación independientes, pero los benchmarks cambian rápido y los métodos varían. Trátalos como una instantánea y verifica las cifras actuales en la página de cada proveedor.
¿En qué puesto está GLM 5.2 entre los modelos abiertos? El primero. Encabeza el Artificial Analysis Intelligence Index para modelos de pesos abiertos y lidera las categorías de código de Design Arena.
¿Cómo puedo probar GLM 5.2 sin ninguna configuración? Chatea con él gratis en tu navegador en glm5.app: sin clave de API, sin instalación, nada que descargar.
En resumen
Entonces, ¿cómo rinde de verdad GLM 5.2? Es el modelo de pesos abiertos que por fin cerró la diferencia: por delante de GPT-5.5 en la mayoría de los benchmarks de programación, a uno o dos puntos de Claude Opus 4.8 en trabajo de largo recorrido y solo claramente por detrás en las tareas más duras de varias horas, todo por una fracción del coste. Para el trabajo que llena la mayoría de los días de los desarrolladores, las puntuaciones dicen que es una opción por defecto de clase frontera que además puedes ejecutar a tu manera.
Pero un benchmark es un promedio sobre las tareas de otra persona. La única puntuación que importa es cómo maneja las tuyas, así que pasa tu propio prompt por él, sin claves, sin configuración, aquí mismo: prueba GLM 5.2 gratis en glm5.app.


