Exécutez GLM 5.2 localement: Ollama, VRAM et guide du matériel
Jun 28, 2026

Exécutez GLM 5.2 localement: Ollama, VRAM et guide du matériel

Guide local honnête de GLM 5.2: la balise cloud de Ollama n'est pas une inférence locale. Voici le VRAM dont vous avez besoin par niveau quantitatif et les étapes llama.cpp exactes pour Mac et Linux.

Lorsque j'ai recherché pour la première fois "GLM 5.2 Ollama", je m'attendais à une seule ligne: ollama run glm-5.2. Ce que j’ai trouvé était plus intéressant et beaucoup plus honnête. Il existe une option Ollama pour GLM 5.2, mais ce n'est pas ce que la plupart des gens veulent dire lorsqu'ils disent « exécutez-le localement ». Ce guide décrit ce que vous obtenez réellement avec chaque option de configuration, le matériel dont vous avez réellement besoin et le chemin le plus rapide vers GLM 5.2 si vous ne disposez pas de 256 Go de RAM.

Ce que glm-5.2:cloud signifie réellement

Si vous visitez la bibliothèque Ollama et recherchez GLM 5.2, vous le trouverez, mais avec un piège. La seule balise disponible est :cloud. L'exécution de ollama run glm-5.2:cloud achemine votre invite via l'infrastructure gérée de Z.AI, et non votre GPU ou CPU local. Il s'agit d'un wrapper API pratique avec l'ergonomie Ollama, et non d'une inférence sur l'appareil.

Cette distinction est importante: si votre objectif est la confidentialité sur l'appareil, le déploiement en espace restreint ou l'inférence sans facture API, la balise cloud Ollama ne l'atteint pas. Pour une véritable inférence locale, vous avez besoin d'un chemin différent.

Pouvez-vous réellement exécuter GLM 5.2 localement?

Oui, mais la barre matérielle est réelle. Selon le sortie officielle de Z.AI, GLM 5.2 est un modèle Mixture-of-Experts de 744 milliards de paramètres avec environ 40 milliards de paramètres actifs par jeton. Même sous forme compressée, il s'agit de l'un des plus grands modèles ouverts disponibles, et les besoins en mémoire le reflètent.

Voici la répartition pratique par niveau de quantification, basée sur Variantes GGUF publiées du Unsloth:

QuantificationMémoire nécessaireMatériel minimal
UD-IQ1_S (dynamique 1 bit)~223 GoMémoire unifiée de 256 Go Mac
UD-IQ2_M (dynamique 2 bits)~239 Go256 Go Mac Studio / 1 × 24 Go GPU + 256 Go RAM
Q4_K_M (4 bits)~376 GoStation de travail Multi-GPU ou RAM de 512 Go
FP8 via vLLM753 Go+8×H200 ou équivalent

Le quant 2 bits (UD-IQ2_M) est la solution idéale pour le matériel grand public: c'est l'option la plus accessible tout en conservant de solides performances de codage. Attendez-vous à environ 3 à 9 jetons par seconde en fonction de votre configuration.

Option 1: Mac Studio avec 256 Go de mémoire unifiée

Si vous disposez d'un M3 Ultra ou d'un M4 Ultra Mac Studio avec 192 à 256 Go de mémoire unifiée, il s'agit du chemin local le plus propre disponible sur le matériel grand public. La mémoire unifiée du Apple Silicon signifie que vos CPU et GPU partagent le même pool, vous pouvez donc charger le GGUF 2 bits sans la division GPU-CPU qui complique les autres configurations.

Mesures:

1. Installez llama.cpp (le backend d'inférence):

brew install llama.cpp

Ou créez à partir des sources pour les dernières optimisations Metal:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Téléchargez le GGUF 2 bits à partir de Unsloth (239 Go au total – six parties, téléchargez toutes):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Vous aurez besoin de pip install huggingface_hub et de suffisamment de stockage NVMe. Le téléchargement prend du temps: démarrez-le avant d’en avoir besoin.

3. Exécuter l'inférence:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 décharge toutes les couches vers le Metal GPU. Sur une mémoire unifiée de 256 Go, vous verrez environ 4 à 9 jetons/seconde pour les invites de codage.

Alternative à l'interface graphique: Si vous préférez ne pas utiliser la CLI, LM Studio encapsule llama.cpp dans une application de bureau avec un navigateur de modèles visuels et une interface utilisateur de discussion intégrée. Importez manuellement le dossier GGUF après le téléchargement et il s’occupe du reste.

Option 2: Poste de travail Linux GPU

Vous n'avez pas besoin d'un Mac pour exécuter GLM 5.2 localement, mais vous avez besoin d'une quantité importante de système RAM. La technique clé sur Linux est le déchargement des experts MoE: chargez les experts actifs (~ 40 B de paramètres) sur votre GPU VRAM et conservez le reste du pool d'experts dans le système RAM, en les échangeant si nécessaire.

Minimum pratique qui fonctionne: 1× RTX 4090 (24 Go VRAM) + 256 Go DDR5 système RAM.

Les paramètres actifs d'environ 40 B conviennent principalement au GPU de 24 Go; les experts endormis restants siègent dans RAM. Il est plus lent qu'un Mac Studio (environ 2 à 5 jetons/seconde), mais il fonctionne pour les charges de travail de développement et par lots.

Mesures:

1. Installez llama.cpp avec la prise en charge de CUDA:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Téléchargez le GGUF 2 bits (même commande que ci-dessus).

3. Exécuter avec le déchargement GPU + CPU:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Les valeurs -ngl inférieures déchargent moins de couches sur le GPU, laissant le reste au CPU et au système RAM. Commencez à 30 et augmentez jusqu'à ce que vous atteigniez VRAM MOO, puis reculez de 5. Si vous avez un GPU plus petit, commencez plus bas.

Option 3: Entreprise – vLLM sur 8×H200

Pour les équipes exécutant GLM 5.2 en production avec une précision maximale, vLLM ou SGLang est le chemin recommandé. La variante FP8 nécessite environ 860 Go de VRAM, réalisable avec 8 × NVIDIA H200 (141 Go chacun) pour environ 1,1 To d'espace libre total.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Cela vous offre une inférence de qualité complète, un débit simultané élevé et un point de terminaison OpenAI-compatible sur localhost:8000 vers lequel vos outils existants peuvent pointer sans modifications.

Le calcul des coûts vaut la peine d'être fait avant de s'engager: les nœuds 8 × H200 coûtent cher à posséder ou à louer. Comparez cela avec le Z.AI API à ~ 1,40 $/1 million de jetons d'entrée et décidez ce qui convient à votre volume. Pour la plupart des équipes, le cloud API l'emporte jusqu'à ce que les besoins en débit deviennent très importants.

L'option zéro matériel

Voici la partie honnête: la plupart des développeurs ne disposent pas de 256 Go de mémoire unifiée ni d'un rack de H200. Si tel est votre cas, le chemin le plus rapide vers GLM 5.2 est le navigateur.

glm5.app vous donne un accès gratuit à GLM 5.2 dans votre navigateur: aucune installation, aucune clé API, aucun 239 Go de stockage requis. Il est soutenu par les mêmes poids sous licence MIT, démarre instantanément et ne coûte rien à essayer.

Utilisez la configuration locale lorsque vous avez spécifiquement besoin d'un fonctionnement avec espace d'air, que vous souhaitez affiner les poids ou que vous disposez du matériel nécessaire pour que cela en vaille la peine. Utilisez glm5.app pour l'évaluation, l'aide au codage quotidienne et tout ce qui ne nécessite pas une confidentialité stricte sur l'appareil.

Foire aux questions

GLM 5.2 est-il gratuit pour s'exécuter localement? Les poids sont sous licence MIT et peuvent être téléchargés, exécutés et modifiés gratuitement. Le coût est matériel: vous avez besoin d'environ 239 Go de RAM/VRAM minimum pour le quant 2 bits, ce qui limite la véritable inférence locale aux Mac haut de gamme ou aux postes de travail personnalisés.

Le Ollama prend-il en charge le GLM 5.2 localement? Ollama répertorie GLM 5.2, mais uniquement la balise :cloud, qui achemine vos invites via l'infrastructure API de Z.AI plutôt que votre matériel local. Pour une véritable inférence locale, utilisez directement llama.cpp avec les fichiers GGUF de Unsloth.

Quel est le matériel minimum pour exécuter GLM 5.2 localement? Le minimum pratique est un M3 Ultra ou un M4 Ultra Mac Studio avec 256 Go de mémoire unifiée, ou une station de travail Linux avec un GPU de 24 Go et 256 Go de système RAM. Moins que cela et même le quant de 1 bit ne rentrera pas dans la mémoire.

À quelle vitesse GLM 5.2 s'exécute-t-il localement? Sur un Mac Studio (M4 Ultra) de 256 Go avec le GGUF 2 bits, attendez-vous à environ 4 à 9 jetons/seconde. Sur une configuration GPU de 24 Go + RAM Linux de 256 Go, attendez-vous à 2 à 5 jetons/seconde. Utilisable pour les travaux de développement et par lots, pas idéal pour le travail interactif où vous attendez chaque réponse.

Puis-je connecter GLM 5.2 localement aux outils OpenAI SDK? Oui. Le mode serveur de llama.cpp et LM Studio exposent un OpenAI-compatible REST API (généralement sur localhost:11434 ou localhost:1234). Tout outil construit sur le OpenAI SDK peut pointer vers ce point de terminaison avec un changement de configuration sur une seule ligne.

L'essentiel

Exécuter GLM 5.2 localement est une réalité, mais cela nécessite un matériel honnête. La balise Ollama :cloud est un wrapper API, et non une inférence locale. Pour un véritable fonctionnement sur l'appareil, le chemin le plus accessible est le GGUF 2 bits de Unsloth avec llama.cpp sur un Mac Studio de 256 Go ou une station de travail RAM Linux de haute qualité, fournissant 3 à 9 jetons/seconde sur le meilleur matériel grand public disponible aujourd'hui.

Si vous souhaitez essayer le GLM 5.2 avant d'acheter un Mac de 256 Go, commencez ici: essayez GLM 5.2 gratuitement sur glm5.app: aucun téléchargement, aucune clé, aucun stockage requis. Une fois que vous saurez que cela correspond à votre cas d’utilisation, vous saurez clairement si l’investissement matériel est judicieux. Pendant que vous évaluez, consultez comment GLM 5.2 se comporte-t-il sur les benchmarks et combien coûtent le API et les plans d'abonnement.

Sources

La configuration matérielle requise et les tailles de quantification reflètent les spécifications GGUF publiées par le Unsloth et les tests de référence de la communauté à la mi-2026. Vérifiez les chiffres actuels sur chaque source avant d’acheter du matériel.

Commencez à utiliser GLM 5 dès aujourd'hui

Essayez GLM 5 gratuitement — raisonnement, codage, agents et génération d'images sur une seule plateforme.