Ejecute GLM 5.2 localmente: Ollama, VRAM y guía de hardware
Jun 28, 2026

Ejecute GLM 5.2 localmente: Ollama, VRAM y guía de hardware

Guía local honesta de GLM 5.2: la etiqueta de nube de Ollama no es una inferencia local. Aquí está el VRAM que necesita por nivel cuantitativo y los pasos exactos de llama.cpp para Mac y Linux.

Cuando busqué por primera vez "GLM 5.2 Ollama", esperaba una frase breve: ollama run glm-5.2. Lo que encontré fue más interesante y mucho más honesto. Existe una opción Ollama para GLM 5.2, pero no es lo que la mayoría de la gente quiere decir cuando dice "ejecutarlo localmente". Esta guía desglosa lo que realmente obtiene con cada opción de configuración, qué hardware realmente necesita y el camino más rápido hacia GLM 5.2 si no tiene 256 GB de RAM.

Lo que realmente significa glm-5.2:cloud

Si visita la biblioteca Ollama y busca GLM 5.2, lo encontrará, pero con un problema. La única etiqueta disponible es :cloud. La ejecución de ollama run glm-5.2:cloud enruta su mensaje a través de la infraestructura administrada de Z.AI, no de su GPU o CPU local. Es un contenedor API conveniente con ergonomía Ollama, sin inferencia en el dispositivo.

Esa distinción es importante: si su objetivo es la privacidad en el dispositivo, la implementación aislada o la inferencia sin factura API, la etiqueta de nube Ollama no lo ofrece. Para una verdadera inferencia local, necesita una ruta diferente.

¿Se puede realmente ejecutar GLM 5.2 localmente?

Sí, pero la barra de hardware es real. Según el [comunicado oficial] de Z.AI (https://huggingface.co/blog/zai-org/glm-52-blog), GLM 5.2 es un modelo Mixture-of-Experts de 744 mil millones de parámetros con aproximadamente 40 mil millones de parámetros activos por token. Incluso en forma comprimida, es uno de los modelos de peso abierto más grandes disponibles y los requisitos de memoria lo reflejan.

Aquí está el desglose práctico por nivel de cuantificación, basado en variantes de GGUF publicadas por Unsloth:

CuantizaciónMemoria necesariaHardware mínimo
UD-IQ1_S (dinámico de 1 bit)~223GBMemoria unificada de 256 GB Mac
UD-IQ2_M (dinámico de 2 bits)~239GB256GB Mac Studio / 1×24GB GPU + 256GB RAM
Q4_K_M (4 bits)~376GBEstación de trabajo Multi-GPU o RAM de 512 GB
FP8 vía vLLM753GB+8×H200 o equivalente

El cuanto de 2 bits (UD-IQ2_M) es el punto ideal para el hardware de consumo: es la opción más accesible y al mismo tiempo conserva un sólido rendimiento de codificación. Espere aproximadamente de 3 a 9 tokens por segundo, según su configuración.

Opción 1: Mac Studio con memoria unificada de 256 GB

Si tiene un M3 Ultra o M4 Ultra Mac Studio con 192–256 GB de memoria unificada, esta es la ruta local más limpia disponible en el hardware de consumo. La memoria unificada de Apple Silicon significa que su CPU y GPU comparten el mismo grupo, por lo que puede cargar el GGUF de 2 bits sin la división GPU-CPU que complica otras configuraciones.

Pasos:

1. Instale llama.cpp (el backend de inferencia):

brew install llama.cpp

O cree desde el código fuente para obtener las últimas optimizaciones de Metal:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Descargue el GGUF de 2 bits desde Unsloth (239 GB en total: seis partes, descargue todo):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Necesitará pip install huggingface_hub y suficiente almacenamiento NVMe. La descarga lleva tiempo; iníciela antes de que la necesite.

3. Ejecutar inferencia:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 descarga todas las capas al Metal GPU. En una memoria unificada de 256 GB, verá aproximadamente entre 4 y 9 tokens por segundo para indicaciones de codificación.

Alternativa de GUI: Si prefiere no usar la CLI, LM Studio incluye llama.cpp en una aplicación de escritorio con un navegador de modelo visual y una interfaz de usuario de chat integrada. Importe la carpeta GGUF manualmente después de la descarga y él se encargará del resto.

Opción 2: Estación de trabajo Linux GPU

No necesita un Mac para ejecutar GLM 5.2 localmente, pero sí necesita una gran cantidad de sistema RAM. La técnica clave en Linux es descarga de expertos MoE: cargue los expertos activos (~40B de parámetros) en su GPU VRAM y mantenga el resto del grupo de expertos en el sistema RAM, intercambiándolos según sea necesario.

Mínimo práctico que funciona: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5 sistema RAM.

Los ~40B de parámetros activos caben principalmente en el GPU de 24 GB; el resto de los expertos en sueño se sientan en RAM. Es más lento que un Mac Studio (aproximadamente de 2 a 5 tokens por segundo), pero funciona para cargas de trabajo de desarrollo y por lotes.

Pasos:

1. Instale llama.cpp con soporte CUDA:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Descargue el GGUF de 2 bits (el mismo comando que el anterior).

3. Ejecutar con descarga GPU + CPU:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Los valores más bajos de -ngl descargan menos capas al GPU, dejando el resto para el CPU y el sistema RAM. Comience en 30 y sintonice hacia arriba hasta llegar a VRAM OOM, luego retroceda en 5. Si tiene un GPU más pequeño, comience más bajo.

Opción 3: Empresa - vLLM en 8×H200

Para equipos que ejecutan GLM 5.2 en producción con total precisión, vLLM o SGLang es la ruta recomendada. La variante FP8 requiere aproximadamente 860 GB de VRAM, lo que se puede lograr con 8 × NVIDIA H200 (141 GB cada una) para aproximadamente 1,1 TB de espacio libre total.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Esto le brinda inferencia de calidad total, alto rendimiento simultáneo y un punto final OpenAI-compatible en localhost:8000 al que sus herramientas existentes pueden apuntar sin cambios.

Vale la pena hacer los cálculos de costos antes de comprometerse: los nodos 8 × H200 son costosos de poseer o alquilar. Compare eso con el Z.AI API a ~$1,40/1 millón de tokens de entrada y decida cuál tiene sentido para su volumen. Para la mayoría de los equipos, la nube API gana hasta que los requisitos de rendimiento se vuelven muy grandes.

La opción sin hardware

Aquí está la parte honesta: la mayoría de los desarrolladores no tienen 256 GB de memoria unificada o un bastidor de H200. Si ese es usted, el camino más rápido hacia GLM 5.2 es el navegador.

glm5.app le brinda acceso gratuito a GLM 5.2 en su navegador: sin instalación, sin clave API, no se requieren 239 GB de almacenamiento. Está respaldado por los mismos pesos con licencia MIT, se inicia instantáneamente y no cuesta nada probarlo.

Utilice la configuración local cuando necesite específicamente una operación con espacio de aire, desee ajustar los pesos o tenga el hardware para que valga la pena. Utilice glm5.app para evaluación, ayuda diaria con codificación y cualquier cosa que no requiera una privacidad estricta en el dispositivo.

Preguntas frecuentes

¿GLM 5.2 se puede ejecutar localmente de forma gratuita? Las pesas tienen licencia MIT y se pueden descargar, ejecutar y modificar de forma gratuita. El costo es hardware: necesita ~239 GB de RAM/VRAM como mínimo para el cuanto de 2 bits, lo que limita la verdadera inferencia local a Mac de alta gama o estaciones de trabajo personalizadas.

¿Ollama es compatible con GLM 5.2 localmente? Ollama enumera GLM 5.2, pero solo la etiqueta :cloud, que enruta sus mensajes a través de la infraestructura API de Z.AI en lugar de su hardware local. Para una verdadera inferencia local, utilice llama.cpp con los archivos GGUF de Unsloth directamente.

¿Cuál es el hardware mínimo para ejecutar GLM 5.2 localmente? El mínimo práctico es una M3 Ultra o M4 Ultra Mac Studio con 256 GB de memoria unificada, o una estación de trabajo Linux con una GPU de 24 GB y 256 GB de sistema RAM. Menos que eso e incluso el cuanto de 1 bit no cabe en la memoria.

¿A qué velocidad se ejecuta localmente GLM 5.2? En un Mac Studio (M4 Ultra) de 256 GB con el GGUF de 2 bits, espere aproximadamente entre 4 y 9 tokens por segundo. En una configuración GPU de 24 GB + RAM Linux de 256 GB, espere entre 2 y 5 tokens por segundo. Se puede utilizar para desarrollo y trabajos por lotes, pero no es ideal para trabajos interactivos en los que se espera cada respuesta.

¿Puedo conectar GLM 5.2 localmente a herramientas OpenAI SDK? Sí. Tanto el modo de servidor de llama.cpp como el LM Studio exponen un OpenAI-compatible REST API (normalmente en localhost:11434 o localhost:1234). Cualquier herramienta integrada en el OpenAI SDK puede apuntar a ese punto final con un cambio de configuración de una línea.

La conclusión

Ejecutar GLM 5.2 localmente es real, pero exige hardware honesto. La etiqueta Ollama :cloud es un contenedor API, no una inferencia local. Para un verdadero funcionamiento en el dispositivo, la ruta más accesible es la GGUF de 2 bits de Unsloth con llama.cpp en una Mac Studio de 256 GB o una estación de trabajo RAM Linux de alta calidad, que ofrece de 3 a 9 tokens/segundo en el mejor hardware de consumo disponible en la actualidad.

Si desea probar el GLM 5.2 antes de comprar un Mac de 256 GB, comience aquí: pruebe el GLM 5.2 gratis en el glm5.app: sin descarga, sin claves, no requiere almacenamiento. Una vez que sepa que se ajusta a su caso de uso, tendrá una idea clara de si la inversión en hardware tiene sentido. Mientras evalúa, consulte cómo se desempeña el GLM 5.2 en los puntos de referencia y lo que cuestan el API y los planes de suscripción.

Sources

Los requisitos de hardware y los tamaños de cuantificación reflejan las especificaciones de GGUF publicadas por Unsloth y los puntos de referencia de la comunidad a mediados de 2026. Verifique las cifras actuales de cada fuente antes de comprar hardware.

Comienza a usar GLM 5 hoy

Prueba GLM 5 gratis — razonamiento, programación, agentes y generación de imágenes en una sola plataforma.