Antes eu passava direto pelos gráficos de benchmarks. Todo lançamento de modelo vem com uma parede de barras onde, que coincidência, o novo modelo sempre vence, então eu havia aprendido a ignorá-los. Aí o GLM 5.2 chegou, todo o meu feed começou a gritar que ele estava "superando o GPT-5.5", e eu precisava saber se aquilo era real ou só barulho de dia de lançamento. Então reuni os números de verdade — do comunicado oficial da Z.AI, de tabelas de classificação de terceiros e de análises independentes — e os coloquei lado a lado.
Aqui está a leitura honesta: o GLM 5.2 é, neste momento, o modelo de pesos abertos mais forte em benchmarks de programação. Ele supera o GPT-5.5 na maioria deles, fica a um ou dois pontos do Claude Opus 4.8 em programação de longo prazo e faz isso por uma fração do preço. Abaixo está o que cada benchmark realmente mede, onde o GLM 5.2 vence, onde ele ainda perde e o que isso significa para o trabalho que você de fato lhe confiaria.
Benchmarks do GLM 5.2 num relance
Se você ler apenas uma tabela, leia esta. São as suítes de programação agêntica que todos estão observando, com as pontuações de destaque divulgadas no lançamento:
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas (uso de ferramentas) | 76.8 | 77.8 | 75.3 |
| Preço API de entrada /MTok | ~$1.40 | ~$5.00 | ~$5.00 |
| Pesos abertos | Sim (MIT) | Não | Não |
Os números refletem o comunicado oficial da Z.AI e as tabelas de classificação de terceiros em junho de 2026. Os benchmarks mudam toda semana e as metodologias diferem; verifique os números atuais na página de cada fornecedor antes de citá-los.
O padrão salta aos olhos de imediato: o GLM 5.2 fica acima do GPT-5.5 e logo abaixo do Opus 4.8 nas suítes que importam para programação de verdade, além de ser de pesos abertos e muito mais barato. Agora vamos detalhar o que está por trás de cada linha.
Benchmarks de programação: superando o GPT-5.5, perseguindo o Opus
As duas pontuações que mais se citam são SWE-bench Pro (o modelo consegue resolver issues reais do GitHub?) e Terminal-Bench 2.1 (ele consegue operar um shell de verdade para concluir uma tarefa?).
- SWE-bench Pro: 62.1. Isso passa o GPT-5.5 (58.6) e, mais revelador ainda, dá um salto sobre seu próprio antecessor GLM 5.1 (58.4). O Opus 4.8 ainda lidera no número bruto, mas o GLM 5.2 é o primeiro modelo aberto a chegar perto de verdade.
- Terminal-Bench 2.1: 81.0. Esse é o resultado que realmente me surpreendeu. O GLM 5.1 marcou cerca de 62 no mesmo teste; o 5.2 salta para 81.0, ficando a poucos pontos do Opus 4.8 (85.0) e do GPT-5.5 (84.0). Um salto geracional de quase 20 pontos em trabalho agêntico de terminal é a maior notícia de todos esses números.
A conclusão para o dia a dia programando: naquele tipo de trabalho de "resolva esta issue, rode os testes, conserte o comando do shell" que preenche um sprint real, o GLM 5.2 já joga na mesma liga dos modelos de fronteira fechados.
Benchmarks de longo prazo: onde a diferença aparece
Esta é a parte honesta que a maioria dos posts de lançamento ignora. Quanto mais longa e difícil a tarefa, mais a fronteira fechada se distancia, e os números do GLM 5.2 mostram isso.
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
No FrontierSWE, programação realista de longo prazo, o GLM 5.2 (74.4) termina quase empatado com o Opus 4.8 (75.1) e supera o GPT-5.5 — genuinamente impressionante. No PostTrainBench ele mantém o segundo lugar, novamente à frente do GPT-5.5. Mas repare no SWE-Marathon, a maratona de engenharia de várias horas: o Opus 4.8 (26.0) é cerca do dobro do GLM 5.2 (13.0). É o "10% difícil" aparecendo nos dados: quando uma tarefa se estende por horas e dezenas de passos, o raciocinador fechado premium ainda tem uma vantagem real.
Vi a mesma coisa quando testei os dois modelos lado a lado em 40 pull requests reais: o GLM 5.2 igualou o Opus no trabalho do dia a dia e só ficou para trás nos problemas mais espinhosos e longos. Se você quiser esse detalhamento, escrevi sobre ele aqui: GLM 5.2 contra Claude Opus 4.8: programação comparada.
Uso de ferramentas, agentes e raciocínio
Programar não é toda a história: os fluxos de trabalho de agentes vivem ou morrem conforme a chamada de ferramentas, e algumas tarefas exigem raciocínio puro.
- MCP-Atlas: 76.8. Nesta avaliação de uso de ferramentas, o GLM 5.2 supera o GPT-5.5 (75.3) e fica a um fio do Opus 4.8 (77.8). Para loops de agentes, uma chamada de funções confiável importa mais que um ponto na tabela, e isso está próximo o suficiente para considerar empate.
- Tool-Decathlon: 48.2. Aqui está a outra falha assumida. Neste benchmark de ferramentas mais difícil e amplo, tanto o Opus 4.8 (59.9) quanto o GPT-5.5 (55.6) se distanciam com clareza. A orquestração complexa de múltiplas ferramentas ainda é um ponto fraco.
- Raciocínio: No AIME 2026 (matemática de competição), o GLM 5.2 marca 99.2, passando por pouco o GPT-5.5 (98.3). No GPQA-Diamond (ciência de nível de pós-graduação) ele faz 91.2, atrás dos 93.6 que tanto o Opus quanto o GPT-5.5 atingem. Tradução: é excelente em matemática estruturada, um passo atrás nas questões de conhecimento mais difíceis.
A coroa dos pesos abertos
Afaste-se dos testes individuais e um fato se impõe: o GLM 5.2 é o modelo de pesos abertos líder no independente Artificial Analysis Intelligence Index (51 na v4.1), à frente de outros modelos abertos como MiniMax-M3, DeepSeek V4 Pro e Kimi K2.6. Ele também conquistou o primeiro lugar nas categorias de código da Design Arena e figura entre o punhado de melhores modelos — abertos ou fechados — em tabelas de classificação agregadas como a BenchLM.
Nenhum outro modelo que você possa baixar e hospedar por conta própria está tão perto da fronteira fechada. É essa a verdadeira mensagem desses benchmarks.
O fator custo: a mesma liga, por uma fração do preço
Os benchmarks não rodam com um orçamento, mas o seu time roda — e é aqui que o GLM 5.2 deixa de ser interessante e passa a ser uma decisão. Seu preço API de entrada fica em torno de $1.40 por milhão de tokens contra cerca de $5.00 tanto do Opus 4.8 quanto do GPT-5.5. O VentureBeat estimou a diferença total, combinando entrada e saída, em cerca de um sexto do custo do GPT-5.5.
Coloque isso ao lado das pontuações: você obtém desempenho a um ou dois pontos da fronteira na maior parte do trabalho de programação, por algo entre um terço e um sexto do preço. É essa proporção que torna a coroa dos pesos abertos mais do que um troféu.
O que esses benchmarks realmente significam para o seu trabalho
Pontuações são abstrações. Veja como eu as traduziria numa decisão de roteamento:
- Programação do dia a dia (os 90%) — issues, refatorações, testes, código de cola, trabalho de terminal. Os números do GLM 5.2 no SWE-bench Pro, Terminal-Bench e FrontierSWE dizem que ele acompanhará a fronteira. Faça dele a sua opção padrão.
- Tarefas maratona (os 10% difíceis) — engenharia de várias horas e muitos passos, onde SWE-Marathon e Tool-Decathlon expõem a diferença. Mantenha um modelo fechado premium de prontidão para essas.
- Pipelines sensíveis a custo ou de alto volume — a proporção de preço torna o GLM 5.2 a opção padrão óbvia, escalando apenas o raro caso difícil.
A única coisa que nenhum benchmark captura é como um modelo se comporta com o seu código. Uma pontuação é uma média sobre o conjunto de testes de outra pessoa; o seu repositório, os seus prompts e os seus casos limítrofes são o que você de fato coloca em produção.
A forma mais rápida de testar o GLM 5.2 você mesmo
Ler uma tabela de classificação é uma coisa; ver um modelo lidar com a sua própria tarefa é outra. O problema com um modelo de pesos abertos é que a forma "correta" de executá-lo geralmente envolve baixar pesos ou conectar uma chave de API, e a maioria das pessoas trava justamente aí.
Você pode pular tudo isso. O glm5.app permite conversar com o GLM 5.2 direto no seu navegador: sem instalação, sem chave, sem configuração. Cole um ticket real do seu backlog, observe como ele programa e planeja, e julgue você mesmo a qualidade do dia a dia em vez de confiar num gráfico.
Se quiser sentir onde o GLM 5.2 se posiciona em relação à fronteira, esse é o caminho mais rápido: experimente o GLM 5.2 grátis no glm5.app e deixe a sua própria tarefa decidir.
Perguntas frequentes
O GLM 5.2 é melhor que o GPT-5.5 em benchmarks? Na maioria das suítes de programação e de longo prazo, sim: ele lidera sobre o GPT-5.5 no SWE-bench Pro (62.1 contra 58.6), FrontierSWE (74.4 contra 72.6) e MCP-Atlas, além de custar bem menos.
O GLM 5.2 é melhor que o Claude Opus 4.8? Não em pontuação bruta. O Opus 4.8 ainda leva vantagem na maioria dos benchmarks e se distancia com clareza nas tarefas mais duras de várias horas (SWE-Marathon, Tool-Decathlon). O GLM 5.2 está perto o suficiente para que, no dia a dia programando, a diferença raramente apareça — e por uma fração do preço.
Qual é a pontuação do GLM 5.2 no SWE-bench Pro? 62.1, o primeiro modelo de pesos abertos a realmente se aproximar da fronteira fechada, e um salto claro sobre os 58.4 do GLM 5.1.
Esses números de benchmarks do GLM 5.2 são confiáveis? Vêm do comunicado oficial da Z.AI e de tabelas de classificação independentes, mas os benchmarks mudam rápido e os métodos variam. Trate-os como um retrato instantâneo e verifique os números atuais na página de cada fornecedor.
Em que posição o GLM 5.2 fica entre os modelos abertos? Primeiro. Ele encabeça o Artificial Analysis Intelligence Index para modelos de pesos abertos e lidera as categorias de código da Design Arena.
Como posso testar o GLM 5.2 sem nenhuma configuração? Converse com ele grátis no seu navegador em glm5.app: sem chave de API, sem instalação, nada para baixar.
Conclusão
Então, como o GLM 5.2 rende de verdade? É o modelo de pesos abertos que finalmente fechou a diferença: à frente do GPT-5.5 na maioria dos benchmarks de programação, a um ou dois pontos do Claude Opus 4.8 no trabalho de longo prazo e claramente atrás apenas nas tarefas mais duras de várias horas — tudo por uma fração do custo. Para o trabalho que preenche a maioria dos dias dos desenvolvedores, as pontuações dizem que ele é uma opção padrão de classe fronteira que você ainda pode executar do seu jeito.
Mas um benchmark é uma média sobre as tarefas de outra pessoa. A única pontuação que importa é como ele lida com as suas — então passe o seu próprio prompt por ele, sem chaves, sem configuração, bem aqui: experimente o GLM 5.2 grátis no glm5.app.


