Execute GLM 5.2 localmente: Ollama, VRAM e guia de hardware
Jun 28, 2026

Execute GLM 5.2 localmente: Ollama, VRAM e guia de hardware

Guia local GLM 5.2 honesto: a tag de nuvem do Ollama não é uma inferência local. Aqui está o VRAM que você precisa por nível quant e etapas llama.cpp exatas para Mac e Linux.

Quando pesquisei "GLM 5.2 Ollama" pela primeira vez, esperava uma linha única: ollama run glm-5.2. O que descobri foi mais interessante – e muito mais honesto. Existe ** uma opção Ollama para GLM 5.2, mas não é o que a maioria das pessoas quer dizer quando diz "executá-lo localmente". Este guia detalha o que você realmente obtém com cada opção de configuração, qual hardware você realmente precisa e o caminho mais rápido para GLM 5.2 se você não tiver 256 GB de RAM disponíveis.

O que glm-5.2:cloud realmente significa

Se você visitar a biblioteca Ollama e procurar por GLM 5.2, você a encontrará – mas com um porém. A única tag disponível é :cloud. A execução de ollama run glm-5.2:cloud roteia seu prompt por meio da infraestrutura gerenciada de Z.AI, não de seu GPU ou CPU local. É um wrapper API conveniente com ergonomia Ollama, não inferência no dispositivo.

Essa distinção é importante: se seu objetivo é privacidade no dispositivo, implantação isolada ou inferência sem fatura API, a tag de nuvem Ollama não oferece isso. Para uma verdadeira inferência local, você precisa de um caminho diferente.

Você pode realmente executar o GLM 5.2 localmente?

Sim, mas a barra de hardware é real. De acordo com o lançamento oficial do Z.AI, o GLM 5.2 é um modelo Mixture-of-Experts de 744 bilhões de parâmetros com aproximadamente 40 bilhões de parâmetros ativos por token. Mesmo na forma compactada, é um dos maiores modelos abertos disponíveis, e os requisitos de memória refletem isso.

Aqui está a divisão prática por nível de quantização, com base em Variantes GGUF publicadas do Unsloth:

QuantizaçãoMemória necessáriaHardware mínimo
UD-IQ1_S (dinâmico de 1 bit)~223GB256 GB de memória unificada Mac
UD-IQ2_M (dinâmico de 2 bits)~239GB256 GB Mac Studio / 1 × 24 GB GPU + 256 GB RAM
Q4_K_M (4 bits)~376GBEstação de trabalho Multi-GPU ou RAM de 512 GB
FP8 através de vLLM753GB+8×H200 ou equivalente

O quant de 2 bits (UD-IQ2_M) é o ponto ideal para hardware de consumo – é a opção mais acessível, ao mesmo tempo que mantém um forte desempenho de codificação. Espere cerca de 3 a 9 tokens por segundo, dependendo da sua configuração.

Opção 1: Mac Studio com 256 GB de memória unificada

Se você tiver um M3 Ultra ou M4 Ultra Mac Studio com 192–256 GB de memória unificada, este é o caminho local mais limpo disponível no hardware do consumidor. A memória unificada do Apple Silicon significa que seu CPU e GPU compartilham o mesmo pool, então você pode carregar o GGUF de 2 bits sem a divisão GPU-CPU que complica outras configurações.

Etapas:

1. Instale llama.cpp (o back-end de inferência):

brew install llama.cpp

Ou crie a partir do código-fonte para as otimizações Metal mais recentes:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Baixe o GGUF de 2 bits de Unsloth (239 GB no total – seis partes, baixe tudo):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Você precisará de pip install huggingface_hub e armazenamento NVMe suficiente. O download leva tempo – inicie-o antes de precisar dele.

3. Execute a inferência:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 descarrega todas as camadas para o Metal GPU. Na memória unificada de 256 GB, você verá cerca de 4 a 9 tokens/segundo para prompts de codificação.

Alternativa de GUI: Se você preferir não usar a CLI, o LM Studio agrupa o llama.cpp em um aplicativo de desktop com um navegador de modelo visual e interface de bate-papo integrada. Importe a pasta GGUF manualmente após o download e ele cuidará do resto.

Opção 2: Estação de trabalho Linux GPU

Você não precisa de um Mac para executar o GLM 5.2 localmente, mas precisa de uma grande quantidade de sistema RAM. A principal técnica em Linux é descarregamento de especialistas MoE: carregue os especialistas ativos (~40B parâmetros) em seu GPU VRAM e mantenha o restante do conjunto de especialistas no sistema RAM, trocando conforme necessário.

Mínimo prático que funciona: 1× RTX 4090 (24 GB VRAM) + 256 GB de sistema DDR5 RAM.

Os parâmetros ativos de ~ 40B cabem principalmente no GPU de 24 GB; os demais especialistas em sono sentam-se em RAM. É mais lento que um Mac Studio (cerca de 2 a 5 tokens/segundo), mas funciona para cargas de trabalho de desenvolvimento e em lote.

Etapas:

1. Instale llama.cpp com suporte CUDA:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Baixe o GGUF de 2 bits (mesmo comando acima).

3. Execute com descarregamento GPU + CPU:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Valores mais baixos de -ngl transferem menos camadas para o GPU, deixando o restante para CPU e o sistema RAM. Comece em 30 e ajuste para cima até atingir VRAM OOM, depois diminua em 5. Se você tiver um GPU menor, comece mais baixo.

Opção 3: Empresarial – vLLM em 8×H200

Para equipes que executam GLM 5.2 em produção com precisão total, vLLM ou SGLang é o caminho recomendado. A variante FP8 requer aproximadamente 860 GB de VRAM – alcançável com 8× NVIDIA H200 (141 GB cada) para aproximadamente 1,1 TB de espaço total.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Isso oferece inferência de qualidade total, alto rendimento simultâneo e um endpoint OpenAI-compatible em localhost:8000 que suas ferramentas existentes podem apontar sem alterações.

Vale a pena fazer a matemática do custo antes de confirmar: nós 8×H200 são caros para possuir ou alugar. Compare isso com o Z.AI API em ~$ 1,40/1 milhão de tokens de entrada e decida o que faz sentido para o seu volume. Para a maioria das equipes, a nuvem API vence até que os requisitos de rendimento se tornem muito grandes.

A opção de hardware zero

Aqui está a parte honesta: a maioria dos desenvolvedores não tem 256 GB de memória unificada ou um rack de H200s. Se for você, o caminho mais rápido para GLM 5.2 é o navegador.

glm5.app oferece acesso gratuito ao GLM 5.2 em seu navegador – sem instalação, sem chave API, sem necessidade de 239 GB de armazenamento. É apoiado pelos mesmos pesos licenciados MIT, inicia instantaneamente e não custa nada para tentar.

Use a configuração local quando precisar especificamente de operação com air gap, quiser ajustar os pesos ou tiver o hardware para fazer valer a pena. Use glm5.app para avaliação, ajuda diária de codificação e qualquer coisa que não exija privacidade estrita no dispositivo.

Perguntas frequentes

O GLM 5.2 é gratuito para execução local? Os pesos são licenciados pelo MIT – gratuitos para download, execução e modificação. O custo é hardware: você precisa de aproximadamente 239 GB de RAM/VRAM no mínimo para o quant de 2 bits, o que limita a verdadeira inferência local a Macs de última geração ou estações de trabalho personalizadas.

Ollama suporta GLM 5.2 localmente? Ollama lista GLM 5.2, mas apenas a tag :cloud – que roteia seus prompts através da infraestrutura API do Z.AI em vez de seu hardware local. Para uma verdadeira inferência local, use llama.cpp diretamente com os arquivos GGUF de Unsloth.

Qual é o hardware mínimo para executar o GLM 5.2 localmente? O mínimo prático é um M3 Ultra ou M4 Ultra Mac Studio com 256 GB de memória unificada ou uma estação de trabalho Linux com um GPU de 24 GB e 256 GB do sistema RAM. Menos que isso e mesmo o quant de 1 bit não caberá na memória.

Quão rápido o GLM 5.2 está sendo executado localmente? Em um Mac Studio de 256 GB (M4 Ultra) com o GGUF de 2 bits, espere cerca de 4–9 tokens/segundo. Em uma configuração GPU de 24 GB + RAM Linux de 256 GB, espere de 2 a 5 tokens/segundo. Utilizável para trabalhos de desenvolvimento e em lote, não é ideal para trabalhos interativos em que você aguarda cada resposta.

Posso conectar GLM 5.2 localmente às ferramentas OpenAI SDK? Sim. Tanto o modo de servidor do llama.cpp quanto o LM Studio expõem um OpenAI-compatible REST API (normalmente em localhost:11434 ou localhost:1234). Qualquer ferramenta construída no OpenAI SDK pode apontar para esse endpoint com uma alteração de configuração de uma linha.

O resultado final

Executar o GLM 5.2 localmente é real – mas exige hardware honesto. A tag Ollama :cloud é um wrapper API, não uma inferência local. Para uma verdadeira operação no dispositivo, o caminho mais acessível é o Unsloth de 2 bits GGUF com llama.cpp em uma estação de trabalho Mac Studio de 256 GB ou uma estação de trabalho RAM Linux de alta capacidade, fornecendo de 3 a 9 tokens/segundo no melhor hardware de consumidor disponível atualmente.

Se você quiser experimentar o GLM 5.2 antes de comprar um Mac de 256 GB, comece aqui: experimente GLM 5.2 gratuitamente em glm5.app — sem download, sem chaves, sem necessidade de armazenamento. Depois de saber se ele se adapta ao seu caso de uso, você terá uma ideia clara se o investimento em hardware faz sentido. Enquanto você avalia, verifique como o GLM 5.2 funciona em benchmarks e quanto custa o API e os planos de assinatura.

Fontes

Os requisitos de hardware e os tamanhos de quantização refletem as especificações Unsloth publicadas pelo GGUF e os benchmarks da comunidade em meados de 2026. Verifique os números atuais de cada fonte antes de comprar hardware.

Comece a Usar o GLM 5 Hoje

Experimente o GLM 5 gratuitamente — raciocínio, programação, agentes e geração de imagens em uma única plataforma.