예전의 저는 벤치마크 그래프를 그냥 스크롤해서 넘겨버리곤 했습니다. 모델이 새로 출시될 때마다 막대그래프의 벽이 따라오고, 거기서는 으레 신모델이 편리하게도 1위를 차지하니까요. 그래서 무시하는 습관이 들어 있었습니다. 그런데 GLM 5.2 가 등장하자 제 피드 전체가 "GPT-5.5 를 이겼다"고 외치기 시작했고, 저는 그게 진짜인지 아니면 출시 당일의 소음일 뿐인지 확인해야만 했습니다. 그래서 실제 수치를, Z.AI 의 공식 릴리스와 제3자 리더보드, 그리고 독립 리뷰에서 끌어모아 나란히 놓고 비교해 봤습니다.
솔직한 결론은 이렇습니다. GLM 5.2 는 현재 코딩 벤치마크에서 가장 강력한 오픈 웨이트 모델입니다. 대부분의 항목에서 GPT-5.5 를 앞서고, 긴 호흡의 코딩에서는 Claude Opus 4.8 에 1~2점 차이로 따라붙으며, 그것을 대략 몇 분의 일 가격에 해냅니다. 아래에서는 각 벤치마크가 실제로 무엇을 측정하는지, GLM 5.2 가 어디서 이기고 어디서 여전히 지는지, 그리고 당신이 실제로 맡길 작업에 그것이 무엇을 의미하는지 짚어봅니다.
GLM 5.2 벤치마크 한눈에 보기
표를 단 하나만 읽는다면 이것을 읽으세요. 모두가 주목하는 에이전트형 코딩 스위트와, 출시 시점에 보고된 핵심 점수를 정리한 것입니다.
| 벤치마크 | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas(도구 사용) | 76.8 | 77.8 | 75.3 |
| API 입력 가격 /MTok | 약 $1.40 | 약 $5.00 | 약 $5.00 |
| 오픈 웨이트 | 예(MIT) | 아니오 | 아니오 |
수치는 2026년 6월 기준 Z.AI 공식 릴리스와 제3자 리더보드를 반영합니다. 벤치마크는 매주 변동하고 측정 방법도 다릅니다. 인용하기 전에 각 공급사 페이지에서 최신 수치를 확인하세요.
패턴은 곧바로 드러납니다. GLM 5.2 는 실제 코딩에서 중요한 스위트에서 GPT-5.5 위에, 그리고 Opus 4.8 바로 아래에 자리합니다——게다가 오픈 웨이트이고 훨씬 저렴합니다. 이제 각 행 뒤에 무엇이 있는지 하나씩 살펴봅시다.
코딩 벤치마크: GPT-5.5 를 이기고, Opus 를 추격
사람들이 가장 많이 인용하는 두 점수는 SWE-bench Pro(모델이 실제 GitHub 이슈를 해결할 수 있는가?)와 Terminal-Bench 2.1(실제 셸을 다뤄 작업을 끝낼 수 있는가?)입니다.
- SWE-bench Pro: 62.1. 이는 GPT-5.5(58.6)를 근소하게 앞서고, 더 의미심장하게는 자신의 전 세대인 GLM 5.1(58.4)에서 도약했습니다. 원시 점수에서는 여전히 Opus 4.8 이 앞서지만, GLM 5.2 는 사정권에 든 최초의 오픈 모델입니다.
- Terminal-Bench 2.1: 81.0. 제가 정말로 놀란 결과가 바로 이것입니다. GLM 5.1 은 같은 테스트에서 62 정도였는데, 5.2 는 81.0 으로 뛰어올라 Opus 4.8(85.0)과 GPT-5.5(84.0)의 몇 점 뒤에 붙었습니다. 에이전트형 터미널 작업에서 세대 간 약 20점에 가까운 도약은 이 수치들 가운데 가장 큰 이야기입니다.
일상적인 코딩을 위한 시사점은 이렇습니다. "이 이슈를 해결하고, 테스트를 돌리고, 셸 명령을 고친다"는, 실제 스프린트를 채우는 종류의 작업에서 GLM 5.2 는 이제 클로즈드 프런티어 모델들과 같은 무대에서 경쟁하고 있습니다.
긴 호흡의 벤치마크: 격차가 드러나는 곳
여기는 대부분의 출시 글이 슬쩍 넘어가는 솔직한 부분입니다. 작업이 길고 어려워질수록 클로즈드 프런티어는 여전히 앞서 나갑니다——그리고 GLM 5.2 의 수치가 그것을 보여줍니다.
| 벤치마크 | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
현실적인 긴 호흡의 코딩인 FrontierSWE 에서 GLM 5.2(74.4)는 Opus 4.8(75.1)과 거의 동률로 마무리하고 GPT-5.5 를 넘어섭니다——진정으로 인상적입니다. PostTrainBench 에서도 2위를 지키며, 여기서도 GPT-5.5 를 앞섭니다. 하지만 SWE-Marathon, 즉 여러 시간에 걸친 엔지니어링의 끈기를 보세요. Opus 4.8(26.0)은 GLM 5.2(13.0)의 대략 두 배입니다. 그것이 데이터에 나타난 "어려운 10%"입니다——작업이 여러 시간과 수십 단계에 걸쳐 늘어질 때, 프리미엄 클로즈드 추론 모델은 여전히 실질적인 우위를 가집니다.
제가 두 모델을 실제 풀 리퀘스트 40건으로 직접 맞붙여 테스트했을 때도 같은 것을 봤습니다. GLM 5.2 는 일상적인 작업에서 Opus 와 대등했고, 가장 까다롭고 가장 긴 문제에서만 뒤처졌습니다. 그 분석이 궁금하다면 여기에 정리해 두었습니다: GLM 5.2 대 Claude Opus 4.8: 코딩 비교.
도구 사용, 에이전트, 추론
코딩이 전부는 아닙니다. 에이전트 워크플로는 도구 호출의 성패로 좌우되고, 어떤 작업에는 순수한 추론력이 필요합니다.
- MCP-Atlas: 76.8. 이 도구 사용 평가에서 GLM 5.2 는 GPT-5.5(75.3)를 앞서고 Opus 4.8(77.8)의 아주 살짝 아래에 자리합니다. 에이전트 루프에는 리더보드 1점보다 신뢰할 수 있는 함수 호출이 더 중요하며, 이는 사실상 무승부라 부를 만큼 가깝습니다.
- Tool-Decathlon: 48.2. 여기가 또 하나의 솔직한 약점입니다. 더 어렵고 폭넓은 이 도구 벤치마크에서는 Opus 4.8(59.9)과 GPT-5.5(55.6)가 모두 분명히 앞섭니다. 복잡한 멀티 도구 오케스트레이션은 여전히 약한 부분입니다.
- 추론: AIME 2026(경시 수학)에서 GLM 5.2 는 99.2 를 기록하며 GPT-5.5(98.3)를 근소하게 넘어섭니다. GPQA-Diamond(대학원 수준 과학)에서는 91.2 로, Opus 와 GPT-5.5 가 함께 도달한 93.6 에는 미치지 못합니다. 풀이하자면, 구조화된 수학에는 탁월하지만 가장 어려운 지식 문제에서는 한 걸음 뒤라는 뜻입니다.
오픈 웨이트의 왕좌
개별 테스트에서 시야를 넓혀 보면 한 가지 사실이 두드러집니다. GLM 5.2 는 독립적인 Artificial Analysis Intelligence Index 에서 선두 오픈 웨이트 모델 입니다(v4.1에서 51). MiniMax-M3, DeepSeek V4 Pro, Kimi K2.6 같은 다른 오픈 모델들을 앞섭니다. 또한 Design Arena 의 코드 부문에서 1위를 차지했고, BenchLM 같은 종합 리더보드에서도 오픈과 클로즈드를 막론하고 전체 모델 중 손에 꼽는 상위권에 듭니다.
다운로드해 직접 호스팅할 수 있는 모델 가운데 이만큼 클로즈드 프런티어에 근접한 것은 달리 없습니다. 그것이 이 벤치마크들이 진짜로 전하는 헤드라인입니다.
비용의 관점: 같은 무대, 가격은 몇 분의 일
벤치마크는 예산으로 돌아가지 않지만, 당신의 팀은 그렇습니다——그리고 바로 여기서 GLM 5.2 는 "흥미로운" 존재에서 "의사결정"의 대상으로 바뀝니다. 그 API 입력 가격은 100만 토큰당 약 $1.40 로, Opus 4.8 과 GPT-5.5 양쪽의 대략 $5.00 에 견줍니다. VentureBeat 는 입력과 출력을 합산한 총비용 격차를 GPT-5.5 의 약 6분의 1 수준으로 추정했습니다.
이것을 점수 옆에 놓아 보세요. 대부분의 코딩 작업에서 프런티어로부터 1~2점 차이의 성능을, 가격의 3분의 1에서 6분의 1 사이에 얻고 있는 것입니다. 그것이 바로 오픈 웨이트의 왕좌를 단순한 트로피 이상으로 만드는 비율입니다.
이 벤치마크들이 당신의 작업에 실제로 의미하는 것
점수는 추상입니다. 저라면 그것을 이렇게 라우팅 결정으로 옮기겠습니다.
- 일상 코딩(90%) — 이슈, 리팩터링, 테스트, 글루 코드, 터미널 작업. GLM 5.2 의 SWE-bench Pro, Terminal-Bench, FrontierSWE 수치는 프런티어를 따라잡을 수 있다고 말합니다. 이것을 기본값으로 두세요.
- 마라톤 작업(어려운 10%) — SWE-Marathon 과 Tool-Decathlon 이 격차를 드러내는, 여러 시간·여러 단계의 엔지니어링. 이런 작업에는 프리미엄 클로즈드 모델을 대기시켜 두세요.
- 비용에 민감하거나 대량 처리 파이프라인 — 가격 비율이 GLM 5.2 를 명백한 기본값으로 만들고, 드문 어려운 사례에서만 상위 모델로 올리면 됩니다.
어떤 벤치마크도 잡아내지 못하는 단 한 가지는, 그 모델이 당신의 코드에서 어떻게 느껴지는가입니다. 점수는 누군가 다른 사람의 테스트 세트에 대한 평균일 뿐입니다. 실제로 출시하는 것은 당신의 리포지토리, 당신의 프롬프트, 당신의 엣지 케이스입니다.
GLM 5.2 를 직접 시험하는 가장 빠른 방법
리더보드를 읽는 것과, 모델이 당신의 작업을 어떻게 다루는지 지켜보는 것은 전혀 다른 일입니다. 오픈 웨이트 모델의 까다로운 점은, "제대로 된" 실행 방법이 대개 가중치를 내려받거나 API 키를 연결하는 것을 의미한다는 점이며, 대부분의 사람은 바로 거기서 멈춰 섭니다.
그 모든 것을 건너뛸 수 있습니다. glm5.app 에서는 GLM 5.2 와 브라우저에서 곧바로 채팅할 수 있습니다——설치도, 키도, 설정도 필요 없습니다. 백로그에서 실제 티켓을 붙여넣고, 그것이 어떻게 코딩하고 계획하는지 지켜보며, 그래프를 믿는 대신 일상 코딩의 품질을 직접 판단하세요.
GLM 5.2 가 프런티어에 비해 어디쯤 있는지 몸으로 느끼고 싶다면, 그것이 가장 빠른 길입니다: glm5.app 에서 GLM 5.2 를 무료로 사용해 보기, 그리고 판단은 당신 자신의 작업에 맡기세요.
자주 묻는 질문
GLM 5.2 는 벤치마크에서 GPT-5.5 보다 나은가요? 대부분의 코딩과 긴 호흡 스위트에서는 네——SWE-bench Pro(62.1 대 58.6), FrontierSWE(74.4 대 72.6), MCP-Atlas 에서 GPT-5.5 를 앞서고, 게다가 훨씬 저렴합니다.
GLM 5.2 는 Claude Opus 4.8 보다 나은가요? 원시 점수에서는 아닙니다. Opus 4.8 은 대부분의 벤치마크에서 여전히 근소하게 앞서고, 가장 어려운 여러 시간 작업(SWE-Marathon, Tool-Decathlon)에서는 분명히 격차를 벌립니다. GLM 5.2 는 그에 충분히 가까워서 일상 코딩에서는 격차가 좀처럼 드러나지 않습니다——게다가 가격은 몇 분의 일입니다.
GLM 5.2 의 SWE-bench Pro 점수는 얼마인가요? 62.1 입니다. 클로즈드 프런티어에 진정으로 근접한 최초의 오픈 웨이트 모델이며, GLM 5.1 의 58.4 에서 분명한 도약입니다.
이 GLM 5.2 벤치마크 수치는 믿을 만한가요? Z.AI 의 공식 릴리스와 독립 리더보드에서 나온 것이지만, 벤치마크는 빠르게 움직이고 방법도 제각각입니다. 스냅샷으로 받아들이고 각 공급사 페이지에서 최신 수치를 확인하세요.
GLM 5.2 는 오픈 모델 가운데 몇 위인가요? 1위입니다. 오픈 웨이트 모델의 Artificial Analysis Intelligence Index 에서 선두에 서고, Design Arena 의 코드 부문에서도 맨 앞입니다.
설정 없이 GLM 5.2 를 시험하려면 어떻게 하나요? glm5.app 에서 브라우저로 무료로 채팅하세요——API 키도, 설치도, 내려받을 것도 없습니다.
결론
그렇다면 GLM 5.2 는 실제로 어느 정도일까요? 그것은 마침내 격차를 메운 오픈 웨이트 모델입니다. 대부분의 코딩 벤치마크에서 GPT-5.5 를 앞서고, 긴 호흡의 작업에서는 Claude Opus 4.8 에 1~2점 차이로 따라붙으며, 분명히 뒤지는 것은 가장 어려운 여러 시간 작업뿐——게다가 모두 몇 분의 일 비용으로. 대다수 개발자의 하루를 채우는 작업에 대해, 점수는 이것이 "당신만의 방식으로도 돌릴 수 있는 프런티어급 기본값"이라고 말합니다.
하지만 벤치마크는 누군가 다른 사람의 작업에 대한 평균입니다. 의미 있는 단 하나의 점수는 그것이 당신의 작업을 어떻게 다루는가입니다——그러니 당신 자신의 프롬프트를 통과시켜 보세요. 키도, 설정도 없이, 바로 여기서 지금: glm5.app 에서 GLM 5.2 를 무료로 사용해 보기.


