Als ich zum ersten Mal nach „GLM 5.2 Ollama“ suchte, erwartete ich einen Einzeiler: ollama run glm-5.2. Was ich fand, war interessanter – und viel ehrlicher. Es gibt eine Ollama-Option für GLM 5.2, aber das ist nicht das, was die meisten Leute meinen, wenn sie sagen „lokal ausführen“. In diesem Leitfaden wird aufgeschlüsselt, was Sie mit den einzelnen Setup-Optionen tatsächlich erhalten, welche Hardware Sie wirklich benötigen und wie Sie am schnellsten zu GLM 5.2 gelangen, wenn Sie nicht über 256 GB RAM verfügen.
Was glm-5.2:cloud eigentlich bedeutet
Wenn Sie die Ollama-Bibliothek besuchen und nach GLM 5.2 suchen, werden Sie es finden – allerdings mit einem Haken. Der einzige verfügbare Tag ist :cloud. Wenn Sie ollama run glm-5.2:cloud ausführen, wird Ihre Eingabeaufforderung über die verwaltete Infrastruktur von Z.AI weitergeleitet, nicht über Ihr lokales GPU oder CPU. Es handelt sich um einen praktischen API-Wrapper mit Ollama-Ergonomie, nicht um Rückschlüsse auf das Gerät.
Diese Unterscheidung ist wichtig: Wenn Ihr Ziel Datenschutz auf dem Gerät, Air-Gap-Bereitstellung oder Inferenz ohne API-Rechnung ist, liefert das Ollama-Cloud-Tag dies nicht. Für echte lokale Inferenz benötigen Sie einen anderen Pfad.
Können Sie GLM 5.2 tatsächlich lokal ausführen?
Ja – aber die Hardware-Leiste ist echt. Laut offizielle Veröffentlichung von Z.AI ist GLM 5.2 ein Mixture-of-Experts-Modell mit 744 Milliarden Parametern und etwa 40 Milliarden aktiven Parametern pro Token. Selbst in komprimierter Form ist es eines der größten Open-Weight-Modelle auf dem Markt, und der Speicherbedarf spiegelt dies wider.
Hier ist die praktische Aufschlüsselung nach Quantisierungsstufe, basierend auf Die veröffentlichten GGUF-Varianten von Unsloth:
| Quantisierung | Speicher benötigt | Minimale Hardware |
|---|---|---|
| UD-IQ1_S (1-Bit dynamisch) | ~223 GB | 256 GB einheitlicher Speicher Mac |
| UD-IQ2_M (2-Bit dynamisch) | ~239 GB | 256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM |
| Q4_K_M (4-Bit) | ~376 GB | Multi-GPU oder 512 GB RAM Workstation |
| FP8 über vLLM | 753 GB+ | 8×H200 oder gleichwertig |
Der 2-Bit-Quant (UD-IQ2_M) ist der Sweet Spot für Consumer-Hardware – es ist die am besten zugängliche Option und bietet dennoch eine starke Codierungsleistung. Erwarten Sie je nach Konfiguration etwa 3–9 Token pro Sekunde.
Option 1: Mac Studio mit 256 GB Unified Memory
Wenn Sie einen M3 Ultra oder M4 Ultra Mac Studio mit 192–256 GB einheitlichem Speicher haben, ist dies der sauberste lokale Pfad, der auf Consumer-Hardware verfügbar ist. Der einheitliche Speicher von Apple Silicon bedeutet, dass Ihr CPU und
Schritte:
1. Installieren Sie llama.cpp (das Inferenz-Backend):
brew install llama.cppOder erstellen Sie aus dem Quellcode die neuesten Metal-Optimierungen:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j2. Laden Sie den 2-Bit-GGUF von Unsloth herunter (insgesamt 239 GB – sechs Teile, alles herunterladen):
huggingface-cli download unsloth/GLM-5.2-GGUF \
--include "UD-IQ2_M/*.gguf" \
--local-dir ./glm52-ggufSie benötigen pip install huggingface_hub und ausreichend NVMe-Speicher. Der Download braucht Zeit – starten Sie ihn, bevor Sie ihn brauchen.
3. Inferenz ausführen:
llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 99 \
--temp 0.7 \
-p "Write a Python function that parses a JSON log file..."-ngl 99 verlagert alle Ebenen auf Metal GPU. Auf 256 GB einheitlichem Speicher werden für Codierungsaufforderungen etwa 4 bis 9 Token pro Sekunde angezeigt.
GUI-Alternative: Wenn Sie die CLI lieber nicht verwenden möchten, bindet LM Studio llama.cpp in eine Desktop-App mit einem visuellen Modellbrowser und integrierter Chat-Benutzeroberfläche ein. Importieren Sie den Ordner GGUF nach dem Download manuell und der Rest wird erledigt.
Option 2: Linux GPU Workstation
Sie benötigen keinen Mac, um GLM 5.2 lokal auszuführen – aber Sie benötigen eine beträchtliche Menge an System-RAM. Die Schlüsseltechnik bei Linux ist MoE Experten-Offloading: Laden Sie die aktiven Experten (~40B Parameter) auf Ihr GPU VRAM und behalten Sie den Rest des Expertenpools im System RAM und tauschen Sie ihn nach Bedarf aus.
Praktisches Minimum, das funktioniert: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5-System RAM.
Die ~40B aktiven Parameter passen größtenteils auf den 24-GB-GPU; Die restlichen Schlafexperten sitzen in RAM. Es ist langsamer als ein Mac Studio – etwa 2–5 Token/Sekunde –, funktioniert aber für Entwicklungs- und Batch-Workloads.
Schritte:
1. Installieren Sie llama.cpp mit CUDA-Unterstützung:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j2. Laden Sie den 2-Bit-GGUF herunter (gleicher Befehl wie oben).
3. Mit GPU + CPU Offload ausführen:
./build/bin/llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 30 \
--temp 0.7 \
-p "Write a Python function that..."Niedrigere -ngl-Werte verlagern weniger Schichten auf den GPU, sodass der Rest für CPU und das System RAM übrig bleibt. Beginnen Sie bei 30 und stimmen Sie nach oben ab, bis Sie VRAM OOM erreichen, und gehen Sie dann um 5 zurück. Wenn Sie einen kleineren GPU haben, beginnen Sie niedriger.
Option 3: Enterprise – vLLM auf 8×H200
Für Teams, die GLM 5.2 in der Produktion mit voller Präzision ausführen, ist vLLM oder SGLang der empfohlene Pfad. Die FP8-Variante erfordert etwa 860 GB VRAM – erreichbar mit 8× NVIDIA H200 (jeweils 141 GB) für etwa 1,1 TB Gesamtspielraum.
pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8Dadurch erhalten Sie Inferenz in voller Qualität, einen hohen gleichzeitigen Durchsatz und einen OpenAI-compatible-Endpunkt auf localhost:8000, auf den Ihre vorhandenen Tools ohne Änderungen verweisen können.
Es lohnt sich, die Kosten zu berechnen, bevor Sie sich verpflichten: 8×H200-Knoten sind teuer im Besitz oder in der Miete. Vergleichen Sie das mit dem Z.AI API für ca. 1,40 $/1 Mio. Eingabe-Tokens und entscheiden Sie, was für Ihr Volumen sinnvoll ist. Für die meisten Teams gewinnt die Cloud API, bis die Durchsatzanforderungen sehr groß werden.
Die Zero-Hardware-Option
Hier ist der ehrliche Teil: Die meisten Entwickler verfügen nicht über 256 GB einheitlichen Speicher oder ein Rack mit H200s. Wenn Sie das sind, ist der Browser der schnellste Weg zu GLM 5.2.
Mit glm5.app haben Sie kostenlosen Zugriff auf GLM 5.2 in Ihrem Browser – keine Installation, kein API-Schlüssel, keine 239 GB Speicherplatz erforderlich. Es verfügt über die gleichen von MIT lizenzierten Gewichte, startet sofort und kostet keinen Versuch.
Verwenden Sie das lokale Setup, wenn Sie speziell einen Betrieb mit Luftspalt benötigen, die Gewichte fein abstimmen möchten oder über die nötige Hardware verfügen, damit sich dies lohnt. Verwenden Sie glm5.app für Evaluierungen, alltägliche Codierungshilfe und alles, was keine strenge Privatsphäre auf dem Gerät erfordert.
Häufig gestellte Fragen
Kann GLM 5.2 kostenlos lokal ausgeführt werden? Die Gewichte sind MIT-lizenziert und können kostenlos heruntergeladen, ausgeführt und geändert werden. Die Kosten hängen von der Hardware ab: Sie benötigen mindestens etwa 239 GB RAM/VRAM für die 2-Bit-Quantität, was die echte lokale Inferenz auf High-End-Macs oder benutzerdefinierte Workstations beschränkt.
Unterstützt Ollama GLM 5.2 lokal?
Ollama listet GLM 5.2 auf, aber nur das Tag :cloud, das Ihre Eingabeaufforderungen über die API-Infrastruktur von Z.AI und nicht über Ihre lokale Hardware weiterleitet. Für eine echte lokale Inferenz verwenden Sie llama.cpp direkt mit den GGUF-Dateien von Unsloth.
Was ist die Mindesthardware, um GLM 5.2 lokal auszuführen? Das praktische Minimum ist ein M3 Ultra oder Weniger als das und selbst das 1-Bit-Quant passt nicht in den Speicher.
Wie schnell läuft GLM 5.2 lokal? Erwarten Sie auf einem 256 GB großen Mac Studio (M4 Ultra) mit dem 2-Bit-GGUF etwa 4–9 Token/Sekunde. Erwarten Sie bei einem 24-GB-GPU- + 256-GB-RAM-Linux-Setup 2–5 Token/Sekunde. Verwendbar für Entwicklungs- und Batch-Jobs, nicht ideal für interaktives Arbeiten, bei dem Sie auf jede Antwort warten.
Kann ich GLM 5.2 lokal mit OpenAI SDK-Tools verbinden? Ja. Sowohl der Servermodus von llama.cpp als auch LM Studio machen einen OpenAI-compatible REST Jedes auf dem OpenAI SDK erstellte Tool kann mit einer einzeiligen Konfigurationsänderung auf diesen Endpunkt verweisen.
Das Fazit
Das lokale Ausführen von GLM 5.2 ist real – aber es erfordert ehrliche Hardware. Das Ollama :cloud-Tag ist ein API-Wrapper, keine lokale Inferenz. Für einen echten On-Device-Betrieb ist der am besten zugängliche Weg der 2-Bit-GGUF von
Wenn Sie GLM 5.2 testen möchten, bevor Sie ein Mac mit 256 GB kaufen, beginnen Sie hier: Testen Sie GLM 5.2 kostenlos auf glm5.app – kein Download, keine Schlüssel, kein Speicher erforderlich. Sobald Sie wissen, dass es zu Ihrem Anwendungsfall passt, haben Sie ein klares Bild davon, ob die Hardware-Investition sinnvoll ist. Schauen Sie sich während der Evaluierung wie GLM 5.2 bei Benchmarks abschneidet und was der API und die Abonnementpläne kosten an.
Quellen
- unsloth/GLM-5.2-GGUF – quantisierte GGUF-Varianten und Speicherbedarf
- Z.AI – GLM-5.2: Gebaut für Long-Horizon-Aufgaben (offizieller Hugging Face-Blog)
- Ollama-Bibliothek: glm-5.2 (Cloud-Tag-Dokumentation)
Hardwareanforderungen und Quantisierungsgrößen spiegeln die veröffentlichten GGUF-Spezifikationen und Community-Benchmarks von Unsloth ab Mitte 2026 wider. Überprüfen Sie die aktuellen Zahlen zu jeder Quelle, bevor Sie Hardware kaufen.

