Раньше я пролистывал графики бенчмарков не глядя. Каждый запуск модели сопровождается стеной столбчатых диаграмм, где новинка удобно оказывается на первом месте, поэтому я привык их игнорировать. Потом вышла GLM 5.2, вся моя лента начала кричать, что она «обходит GPT-5.5», и мне нужно было понять, правда это или просто шум первого дня. Так что я собрал реальные цифры — из официального релиза Z.AI, сторонних рейтингов и независимых обзоров — и выстроил их рядом.
Вот честный вывод: GLM 5.2 — самая сильная модель с открытыми весами на бенчмарках программирования прямо сейчас. Она обходит GPT-5.5 в большинстве из них, держится в одном-двух баллах от Claude Opus 4.8 на длинных задачах кодинга и делает это примерно за долю цены. Ниже — что на самом деле измеряет каждый бенчмарк, где GLM 5.2 выигрывает, где всё ещё проигрывает и что это значит для работы, которую вы бы ей реально доверили.
Бенчмарки GLM 5.2 коротко
Если вы прочтёте одну таблицу, пусть это будет она. Это агентные наборы для кодинга, за которыми все следят, с ключевыми баллами, заявленными на запуске:
| Бенчмарк | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas (работа с инструментами) | 76.8 | 77.8 | 75.3 |
| Цена ввода API /MTok | ~$1.40 | ~$5.00 | ~$5.00 |
| Открытые веса | Да (MIT) | Нет | Нет |
Цифры отражают официальный релиз Z.AI и сторонние рейтинги по состоянию на июнь 2026 года. Бенчмарки меняются еженедельно, а методологии различаются — сверяйтесь с актуальными значениями на странице каждого вендора, прежде чем их цитировать.
Закономерность бросается в глаза сразу: GLM 5.2 стоит выше GPT-5.5 и чуть ниже Opus 4.8 в наборах, которые важны для реального кодинга, — при этом с открытыми весами и куда дешевле. Теперь разберём, что стоит за каждой строкой.
Бенчмарки кодинга: обходит GPT-5.5, догоняет Opus
Два балла, которые цитируют чаще всего, — это SWE-bench Pro (может ли модель решить реальные issue на GitHub?) и Terminal-Bench 2.1 (может ли она работать в настоящем шелле, чтобы довести дело до конца?).
- SWE-bench Pro: 62.1. Это слегка обходит GPT-5.5 (58.6) и, что показательнее, делает скачок относительно собственного предшественника GLM 5.1 (58.4). Opus 4.8 по сырому числу здесь всё ещё лидирует, но GLM 5.2 — первая открытая модель, оказавшаяся на дистанции удара.
- Terminal-Bench 2.1: 81.0. Вот результат, который меня по-настоящему удивил. GLM 5.1 набирала около 62 в том же тесте; 5.2 прыгает до 81.0, оказываясь в нескольких баллах от Opus 4.8 (85.0) и GPT-5.5 (84.0). Скачок почти на 20 баллов между поколениями в агентной работе с терминалом — главная история в этих цифрах.
Вывод для повседневного кодинга: на работе вроде «реши этот issue, прогони тесты, поправь команду в шелле», которой набит реальный спринт, GLM 5.2 теперь играет в одной лиге с закрытыми флагманскими моделями.
Длинные задачи: где видна разница
Это та честная часть, которую большинство релизных постов проскакивают. Чем длиннее и сложнее задача, тем сильнее закрытый флагман всё ещё вырывается вперёд — и цифры GLM 5.2 это показывают.
| Бенчмарк | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
В FrontierSWE, реалистичном длинном кодинге, GLM 5.2 (74.4) финиширует почти вровень с Opus 4.8 (75.1) и обходит GPT-5.5 — действительно впечатляюще. В PostTrainBench она держит второе место, снова впереди GPT-5.5. Но взгляните на SWE-Marathon, многочасовую инженерную мясорубку: Opus 4.8 (26.0) почти вдвое опережает GLM 5.2 (13.0). Это те самые «тяжёлые 10%», проступающие в данных, — когда задача растягивается на часы и десятки шагов, премиальный закрытый рассуждатель всё ещё имеет реальное преимущество.
То же самое я увидел, когда тестировал обе модели лоб в лоб на 40 реальных pull request: GLM 5.2 шла вровень с Opus на повседневной работе и отставала только на самых заковыристых и длинных задачах. Если хотите этот разбор, я расписал его здесь: GLM 5.2 против Claude Opus 4.8: сравнение в кодинге.
Работа с инструментами, агенты и рассуждение
Кодинг — это не вся история: агентные сценарии живут или умирают на вызове инструментов, а некоторым задачам нужно чистое рассуждение.
- MCP-Atlas: 76.8. В этом тесте на работу с инструментами GLM 5.2 обходит GPT-5.5 (75.3) и стоит на волосок ниже Opus 4.8 (77.8). Для агентных циклов надёжный вызов функций важнее одного балла в рейтинге, и здесь разница достаточно мала, чтобы считать её ничьей.
- Tool-Decathlon: 48.2. Вот ещё один честный промах. В этом более сложном и широком бенчмарке инструментов Opus 4.8 (59.9) и GPT-5.5 (55.6) оба заметно вырываются вперёд. Сложная оркестрация множества инструментов всё ещё слабое место.
- Рассуждение: в AIME 2026 (олимпиадная математика) GLM 5.2 набирает 99.2, чуть опережая GPT-5.5 (98.3). В GPQA-Diamond (наука уровня аспирантуры) она получает 91.2, уступая 93.6, которых достигают и Opus, и GPT-5.5. Перевод: она отлично справляется со структурированной математикой и на шаг отстаёт на самых трудных вопросах на знание.
Корона открытых весов
Отдалитесь от отдельных тестов — и остаётся один факт: GLM 5.2 — ведущая модель с открытыми весами в независимом Artificial Analysis Intelligence Index (51 на v4.1), впереди других открытых моделей вроде MiniMax-M3, DeepSeek V4 Pro и Kimi K2.6. Она также заняла первое место в категориях кода Design Arena и входит в верхнюю горстку всех моделей — открытых или закрытых — в сводных рейтингах вроде BenchLM.
Ни одна другая модель, которую можно скачать и развернуть у себя, не стоит так близко к закрытому флагману. Вот заголовок, который эти бенчмарки на самом деле и сообщают.
Вопрос цены: та же лига, доля цены
Бенчмарки бюджету не подчиняются, а вот ваша команда — да, и именно здесь GLM 5.2 перестаёт быть просто любопытной и становится решением. Цена её ввода через API — около $1.40 за миллион токенов против примерно $5.00 и у Opus 4.8, и у GPT-5.5. VentureBeat оценил итоговый разрыв, объединив ввод и вывод, примерно в одну шестую от стоимости GPT-5.5.
Сопоставьте это с баллами: вы получаете производительность в пределах одного-двух баллов от флагмана на большинстве задач кодинга — за сумму от трети до шестой части цены. Именно эта пропорция превращает корону открытых весов из трофея во что-то большее.
Что эти бенчмарки на самом деле значат для вашей работы
Баллы — это абстракции. Вот как я бы перевёл их в решение о маршрутизации задач:
- Повседневный кодинг (те самые 90%) — issue, рефакторинги, тесты, связующий код, работа в терминале. Цифры GLM 5.2 в SWE-bench Pro, Terminal-Bench и FrontierSWE говорят, что она будет идти вровень с флагманом. Берите её по умолчанию.
- Марафонские задачи (тяжёлые 10%) — многочасовая, многошаговая инженерия, где SWE-Marathon и Tool-Decathlon обнажают разрыв. Держите премиальную закрытую модель наготове для них.
- Конвейеры, чувствительные к цене или с большим объёмом — ценовая пропорция делает GLM 5.2 очевидным выбором по умолчанию, с эскалацией лишь в редком сложном случае.
Единственное, чего не схватывает ни один бенчмарк, — это каково модели на вашем коде. Балл — это среднее по чужому тестовому набору; ваш репозиторий, ваши промпты и ваши пограничные случаи — вот что вы реально отгружаете.
Самый быстрый способ протестировать GLM 5.2 самому
Читать рейтинг — это одно, а смотреть, как модель справляется с вашей собственной задачей, — совсем другое. Загвоздка с моделью на открытых весах в том, что «правильный» способ её запустить обычно означает скачивание весов или возню с API-ключом, и большинство людей застревают прямо тут.
Всё это можно пропустить. glm5.app позволяет общаться с GLM 5.2 прямо в браузере — без установки, без ключа, без настройки. Вставьте реальную задачу из вашего бэклога, посмотрите, как она пишет код и планирует, и сами оцените качество повседневного кодинга вместо того, чтобы верить графику.
Если хотите почувствовать, где GLM 5.2 находится относительно флагмана, это самый быстрый путь: попробуйте GLM 5.2 бесплатно на glm5.app и пусть решает ваша собственная задача.
Часто задаваемые вопросы
GLM 5.2 лучше GPT-5.5 на бенчмарках? В большинстве наборов по кодингу и длинным задачам — да: она опережает GPT-5.5 в SWE-bench Pro (62.1 против 58.6), FrontierSWE (74.4 против 72.6) и MCP-Atlas, при этом стоя куда дешевле.
GLM 5.2 лучше Claude Opus 4.8? По сырым баллам — нет. Opus 4.8 всё ещё чуть впереди в большинстве бенчмарков и заметно отрывается на самых сложных многочасовых задачах (SWE-Marathon, Tool-Decathlon). GLM 5.2 настолько близка, что для повседневного кодинга разрыв почти не виден — за долю цены.
Какой балл у GLM 5.2 в SWE-bench Pro? 62.1 — первая модель с открытыми весами, которая по-настоящему вплотную подобралась к закрытому флагману, и явный скачок относительно 58.4 у GLM 5.1.
Можно ли доверять этим цифрам бенчмарков GLM 5.2? Они взяты из официального релиза Z.AI и независимых рейтингов, но бенчмарки меняются быстро, а методы различаются. Воспринимайте их как снимок и сверяйте актуальные значения на странице каждого вендора.
Какое место занимает GLM 5.2 среди открытых моделей? Первое. Она возглавляет Artificial Analysis Intelligence Index среди моделей с открытыми весами и лидирует в категориях кода Design Arena.
Как протестировать GLM 5.2 без всякой настройки? Общайтесь с ней бесплатно в браузере на glm5.app — без API-ключа, без установки, без необходимости что-либо скачивать.
Итог
Так как же GLM 5.2 показывает себя на деле? Это модель с открытыми весами, которая наконец сократила разрыв: впереди GPT-5.5 в большинстве бенчмарков кодинга, в пределах одного-двух баллов от Claude Opus 4.8 на длинных задачах и заметно отстаёт только на самых сложных многочасовых задачах — и всё это за долю цены. Для работы, которой заполнены дни большинства разработчиков, баллы говорят, что это выбор по умолчанию уровня флагмана, который вы к тому же можете запускать по-своему.
Но бенчмарк — это среднее по чужим задачам. Единственный балл, который имеет значение, — это как она справляется с вашими, так что прогоните через неё собственный промпт, без ключей, без настройки, прямо здесь: попробуйте GLM 5.2 бесплатно на glm5.app.


