Когда я впервые искал «GLM 5.2 Ollama», я ожидал однострочника: ollama run glm-5.2. То, что я нашел, было более интересным и намного более честным. Для GLM 5.2 есть опция Ollama, но большинство людей имеют в виду не это, когда говорят «запускать ее локально». В этом руководстве описывается, что вы на самом деле получаете при каждом варианте установки, какое оборудование вам действительно нужно, а также самый быстрый путь к GLM 5.2, если у вас нет 256 ГБ RAM.
Что на самом деле означает glm-5.2:cloud
Если вы посетите библиотеку Ollama и выполните поиск по запросу GLM 5.2, вы его найдете, но с одной загвоздкой. Единственный доступный тег — :cloud. При запуске ollama run glm-5.2:cloud ваше приглашение направляется через управляемую инфраструктуру Z.AI, а не через локальный GPU или CPU. Это удобная оболочка API с эргономикой Ollama, а не выводом на устройстве.
Это различие имеет значение: если вашей целью является конфиденциальность на устройстве, развертывание с воздушным зазором или вывод без каких-либо затрат на API, облачный тег Ollama не обеспечит этого. Для настоящего локального вывода вам понадобится другой путь.
Можете ли вы запустить GLM 5.2 локально?
Да, но аппаратная панель реальна. Согласно официальный релиз Z.AI, GLM 5.2 представляет собой модель Mixture-of-Experts с 744 миллиардами параметров и примерно 40 миллиардами активных параметров на каждый токен. Даже в сжатом виде это одна из самых больших доступных моделей открытого веса, и это отражается на требованиях к памяти.
Вот практическая разбивка по уровням квантования на основе Опубликованные варианты Unsloth GGUF:
| Квантование | Требуется память | Минимальное оборудование |
|---|---|---|
| UD-IQ1_S (1-битный динамический) | ~223 ГБ | 256 ГБ унифицированной памяти Mac |
| UD-IQ2_M (2-битный динамический) | ~239 ГБ | 256 ГБ Mac Studio / 1×24 ГБ GPU + 256 ГБ RAM |
| Q4_K_M (4-битный) | ~376 ГБ | Рабочая станция Multi-GPU или 512 ГБ RAM |
| FP8 через vLLM | 753 ГБ+ | 8×H200 или эквивалент |
2-битный квант (UD-IQ2_M) — оптимальное решение для потребительского оборудования — это наиболее доступный вариант, сохраняющий при этом высокую производительность кодирования. Ожидайте примерно 3–9 токенов в секунду в зависимости от ваших настроек.
Вариант 1: Mac Studio с единой памятью 256 ГБ
Если у вас есть M3 Ultra или M4 Ultra Mac Studio с 192–256 ГБ единой памяти, это самый чистый локальный путь, доступный на потребительском оборудовании. Унифицированная память Apple Silicon означает, что ваши CPU и GPU используют один и тот же пул, поэтому вы можете загрузить 2-битный GGUF без разделения GPU-CPU, которое усложняет другие настройки.
Шаги:
1. Установите llama.cpp (сервер вывода):
brew install llama.cppИли создайте из исходного кода последние оптимизации Metal:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j2. Загрузите 2-битный GGUF с Unsloth (всего 239 ГБ — шесть частей, загрузите все):
huggingface-cli download unsloth/GLM-5.2-GGUF \
--include "UD-IQ2_M/*.gguf" \
--local-dir ./glm52-ggufВам понадобится pip install huggingface_hub и достаточно места для хранения NVMe. Загрузка требует времени — начните ее раньше, чем она вам понадобится.
3. Выполнить вывод:
llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 99 \
--temp 0.7 \
-p "Write a Python function that parses a JSON log file..."-ngl 99 выгружает все слои в Metal GPU. На унифицированной памяти объемом 256 ГБ вы увидите примерно 4–9 токенов в секунду для подсказок по кодированию.
Альтернативный графический интерфейс: Если вы предпочитаете не использовать интерфейс командной строки, LM Studio превращает llama.cpp в настольное приложение с браузером визуальной модели и встроенным пользовательским интерфейсом чата. Импортируйте папку GGUF вручную после загрузки, а все остальное она сделает сама.
Вариант 2: Рабочая станция Linux GPU
Вам не нужен Mac для локального запуска GLM 5.2, но вам нужен серьезный объем системы RAM. Ключевым методом Linux является разгрузка экспертов MoE: загрузите активных экспертов (около 40 млрд параметров) в GPU VRAM и оставьте остальную часть пула экспертов в системе RAM, меняя местами по мере необходимости.
Практический минимум, который работает: 1 × RTX 4090 (24 ГБ VRAM) + 256 ГБ системы DDR5 RAM.
Активные параметры ~40B в основном подходят для GPU на 24 ГБ; остальные спящие эксперты сидят в RAM. Он медленнее, чем Mac Studio — примерно 2–5 токенов в секунду, — но подходит для разработки и пакетных рабочих нагрузок.
Шаги:
1. Установите llama.cpp с поддержкой CUDA:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j2. Загрузите 2-битный GGUF (та же команда, что и выше).
3. Запуск с разгрузкой GPU + CPU:
./build/bin/llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 30 \
--temp 0.7 \
-p "Write a Python function that..."Более низкие значения -ngl переносят меньшее количество слоев на GPU, оставляя остальное для CPU и системы RAM. Начните с 30 и настраивайтесь вверх, пока не дойдете до VRAM OOM, затем отступите на 5. Если у вас GPU меньшего размера, начните с меньшего.
Вариант 3: Enterprise — vLLM на 8×H200
Для команд, использующих GLM 5.2 в производстве с полной точностью, рекомендуемым путем является vLLM или SGLang. Для варианта FP8 требуется около 860 ГБ памяти VRAM — этого можно достичь с помощью 8 × NVIDIA H200 (по 141 ГБ каждая) с общим запасом примерно 1,1 ТБ.
pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8Это дает вам высококачественный вывод, высокую одновременную пропускную способность и конечную точку OpenAI-compatible на localhost:8000, на которую ваши существующие инструменты могут указывать без изменений.
Перед принятием решения стоит провести математические расчеты: владеть или арендовать узлы 8×H200 дорого. Сравните это с Z.AI API по цене ~ 1,40 доллара США за 1 миллион входных токенов и решите, что имеет смысл для вашего объема. Для большинства команд облако API выигрывает до тех пор, пока требования к пропускной способности не станут очень высокими.
Вариант без оборудования
Вот честное слово: у большинства разработчиков нет 256 ГБ унифицированной памяти или стойки с H200. Если это вы, то самый быстрый путь к GLM 5.2 — через браузер.
glm5.app предоставляет вам бесплатный доступ к GLM 5.2 в вашем браузере — без установки, без ключа API, без необходимости 239 ГБ памяти. Он оснащен теми же гирями, имеющими лицензию MIT, запускается мгновенно и ничего не стоит попробовать.
Используйте локальную настройку, когда вам особенно нужна работа с воздушным зазором, вы хотите точно настроить веса или у вас есть необходимое оборудование. Используйте glm5.app для оценки, повседневной помощи при кодировании и всего, что не требует строгой конфиденциальности на устройстве.
Часто задаваемые вопросы
Можно ли GLM 5.2 запускать локально бесплатно? Гири имеют лицензию MIT — их можно бесплатно загружать, запускать и изменять. Стоимость аппаратная: вам нужно ~239 ГБ RAM/VRAM минимум для 2-битного квантования, что ограничивает настоящий локальный вывод высокопроизводительными Mac или пользовательскими рабочими станциями.
Поддерживает ли Ollama GLM 5.2 локально?
Ollama содержит GLM 5.2, но только тег :cloud, который направляет ваши запросы через инфраструктуру API Z.AI, а не через ваше локальное оборудование. Для истинного локального вывода используйте llama.cpp напрямую с файлами GGUF Unsloth.
Какое минимальное оборудование для локального запуска GLM 5.2? Практический минимум — M3 Ultra или M4 Ultra Mac Studio с 256 ГБ унифицированной памяти или рабочая станция Linux с 24 ГБ GPU и 256 ГБ системной RAM. Меньше этого значения, и даже 1-битный квант не поместится в памяти.
Как быстро GLM 5.2 работает локально? На Mac Studio (M4 Ultra) емкостью 256 ГБ с 2-битным GGUF ожидается примерно 4–9 токенов в секунду. При настройке GPU 24 ГБ + 256 ГБ RAM Linux ожидайте 2–5 токенов в секунду. Подходит для разработки и пакетных заданий, но не идеален для интерактивной работы, когда вы ждете каждого ответа.
Могу ли я подключить GLM 5.2 локально к инструментам OpenAI SDK?
Да. И серверный режим llama.cpp, и LM Studio предоставляют OpenAI-compatible REST API (обычно на localhost:11434 или localhost:1234). Любой инструмент, созданный на базе OpenAI SDK, может указать на эту конечную точку с помощью изменения конфигурации в одну строку.
Итог
Запустить GLM 5.2 локально вполне реально, но для этого требуется честное оборудование. Тег Ollama :cloud — это оболочка API, а не локальный вывод. Для настоящей работы на устройстве наиболее доступным путем является 2-битный GGUF Unsloth с llama.cpp на Mac Studio 256 ГБ или рабочая станция RAM Linux с высоким разрешением RAM, обеспечивающая скорость 3–9 токенов в секунду на лучшем потребительском оборудовании, доступном сегодня.
Если вы хотите попробовать GLM 5.2 перед покупкой Mac емкостью 256 ГБ, начните здесь: попробуйте GLM 5.2 бесплатно на glm5.app — без загрузки, без ключей и без необходимости хранения. Как только вы поймете, что оно соответствует вашему сценарию использования, вы получите четкое представление о том, имеют ли смысл инвестиции в оборудование. Пока вы оцениваете, ознакомьтесь с как GLM 5.2 работает в тестах и сколько стоят API и планы подписки.
Источники
- unsloth/GLM-5.2-GGUF — квантованные варианты GGUF и требования к памяти
- Z.AI — GLM-5.2: создан для задач с большим горизонтом (официальный блог Hugging Face)
- Библиотека Ollama: glm-5.2 (документация по облачным тегам)
Требования к оборудованию и размеры квантования соответствуют опубликованным Unsloth спецификациям GGUF и тестам сообщества по состоянию на середину 2026 года. Перед покупкой оборудования проверьте текущие данные по каждому источнику.


