Voer GLM 5.2 lokaal uit: Ollama, VRAM en hardwarehandleiding
Jun 28, 2026

Voer GLM 5.2 lokaal uit: Ollama, VRAM en hardwarehandleiding

Eerlijke lokale gids voor GLM 5.2: de cloudtag van Ollama is geen lokale gevolgtrekking. Hier is de VRAM die u nodig heeft, gerangschikt op kwantitatief niveau en in exacte llama.cpp-stappen voor Mac en Linux.

Toen ik voor het eerst naar "GLM 5.2 Ollama" zocht, verwachtte ik een oneliner: ollama run glm-5.2. Wat ik ontdekte was interessanter – en veel eerlijker. Er is een Ollama-optie voor GLM 5.2, maar dit is niet wat de meeste mensen bedoelen als ze zeggen "voer het lokaal uit". In deze handleiding wordt uiteengezet wat u feitelijk krijgt bij elke installatieoptie, welke hardware u werkelijk nodig heeft en wat het snelste pad naar GLM 5.2 is als u niet over 256 GB RAM beschikt.

Wat glm-5.2:cloud eigenlijk betekent

Als u de Ollama-bibliotheek bezoekt en zoekt naar GLM 5.2, zult u deze vinden, maar met een addertje onder het gras. De enige beschikbare tag is :cloud. Als u ollama run glm-5.2:cloud uitvoert, wordt uw prompt door de beheerde infrastructuur van Z.AI geleid, niet door uw lokale GPU of CPU. Het is een handige API-verpakking met Ollama-ergonomie, geen gevolgtrekking op het apparaat.

Dat onderscheid is van belang: als uw doel privacy op het apparaat, air-gapped implementatie of gevolgtrekking zonder API-factuur is, levert de Ollama-cloudtag dit niet. Voor echte lokale gevolgtrekking heeft u een ander pad nodig.

Kunt u GLM 5.2 daadwerkelijk lokaal uitvoeren?

Ja, maar de hardwarebalk is echt. Volgens Z.AI's officiële uitgave is GLM 5.2 een Mixture-of-Experts-model met 744 miljard parameters en ongeveer 40 miljard actieve parameters per token. Zelfs in gecomprimeerde vorm is het een van de grootste open modellen die verkrijgbaar zijn, en de geheugenvereisten weerspiegelen dat.

Hier is de praktische uitsplitsing per kwantiseringsniveau, gebaseerd op Unsloth's gepubliceerde GGUF-varianten:

KwantiseringGeheugen nodigMinimale hardware
UD-IQ1_S (1-bit dynamisch)~223 GB256 GB verenigd geheugen Mac
UD-IQ2_M (2-bit dynamisch)~239GB256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM
Q4_K_M (4-bits)~376 GBMulti-GPU of 512 GB RAM werkstation
FP8 via vLLM753GB+8×H200 of gelijkwaardig

De 2-bits quant (UD-IQ2_M) is de beste keuze voor consumentenhardware: het is de meest toegankelijke optie terwijl de sterke codeerprestaties behouden blijven. Verwacht ongeveer 3-9 tokens per seconde, afhankelijk van je configuratie.

Optie 1: Mac Studio met 256 GB Unified Memory

Als u een M3 Ultra of M4 Ultra Mac Studio met 192-256 GB uniform geheugen hebt, is dit het schoonste lokale pad dat beschikbaar is op consumentenhardware. Het uniforme geheugen van de Apple Silicon betekent dat uw CPU en GPU dezelfde pool delen, zodat u de 2-bit GGUF kunt laden zonder de GPU-CPU-splitsing die andere instellingen compliceert.

Stappen:

1. Installeer llama.cpp (de inferentie-backend):

brew install llama.cpp

Of bouw vanaf de broncode voor de nieuwste Metal-optimalisaties:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Download de 2-bit GGUF van Unsloth (239 GB totaal: zes delen, download alles):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Je hebt pip install huggingface_hub en voldoende NVMe-opslagruimte nodig. Het downloaden kost tijd: start het voordat u het nodig heeft.

3. Voer gevolgtrekking uit:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 verplaatst alle lagen naar de Metal GPU. Op 256 GB uniform geheugen zie je ongeveer 4-9 tokens/seconde voor coderingsprompts.

GUI-alternatief: Als u de CLI liever niet gebruikt, verpakt LM Studio llama.cpp in een desktop-app met een visuele modelbrowser en ingebouwde chat-gebruikersinterface. Importeer de map GGUF handmatig na het downloaden en de rest wordt afgehandeld.

Optie 2: Linux GPU werkstation

U hebt geen Mac nodig om GLM 5.2 lokaal uit te voeren, maar u hebt wel een aanzienlijke hoeveelheid systeem-RAM nodig. De belangrijkste techniek op Linux is MoE expert offloaden: laad de actieve experts (~40B params) op uw GPU VRAM en bewaar de rest van de expertpool in systeem RAM, waarbij u indien nodig kunt wisselen.

Praktisch minimum dat werkt: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5-systeem RAM.

De ~40B actieve parameters passen meestal op de 24 GB GPU; de overige slaapexperts zitten in RAM. Het is langzamer dan een Mac Studio (ongeveer 2 tot 5 tokens per seconde), maar het werkt voor ontwikkelings- en batchworkloads.

Stappen:

1. Installeer llama.cpp met CUDA-ondersteuning:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Download de 2-bit GGUF (dezelfde opdracht als hierboven).

3. Uitvoeren met GPU + CPU offload:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Lagere -ngl-waarden verplaatsen minder lagen naar de GPU, waardoor de rest overblijft voor CPU en systeem RAM. Begin bij 30 en stem omhoog totdat je VRAM OOM bereikt, en ga dan terug met 5. Als je een kleinere GPU hebt, begin dan lager.

Optie 3: Enterprise — vLLM op 8×H200

Voor teams die GLM 5.2 in productie met volledige precisie uitvoeren, is vLLM of SGLang het aanbevolen pad. De FP8-variant vereist ongeveer 860 GB VRAM, haalbaar met 8× NVIDIA H200 (elk 141 GB) voor ongeveer 1,1 TB totale hoofdruimte.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Dit geeft u gevolgtrekking van volledige kwaliteit, hoge gelijktijdige doorvoer en een OpenAI-compatible-eindpunt op localhost:8000 waar uw bestaande tools zonder wijzigingen naar kunnen verwijzen.

Het is de moeite waard om de kosten te berekenen voordat u een commit maakt: 8×H200-knooppunten zijn duur om te bezitten of te huren. Vergelijk dat met de Z.AI API met invoertokens van ~$ 1,40/1 miljoen en beslis welke zinvol is voor uw volume. Voor de meeste teams wint de cloud API totdat de doorvoervereisten erg groot worden.

De Zero-Hardware-optie

Hier is het eerlijke deel: de meeste ontwikkelaars hebben geen 256 GB verenigd geheugen of een rack met H200's. Als jij dat bent, is de browser de snelste weg naar GLM 5.2.

glm5.app geeft u gratis toegang tot GLM 5.2 in uw browser: geen installatie, geen API-sleutel, geen 239 GB opslagruimte vereist. Het wordt ondersteund door dezelfde MIT-gelicentieerde gewichten, start onmiddellijk en kost niets om te proberen.

Gebruik de lokale opstelling als u specifiek een air-gapped werking nodig heeft, de gewichten wilt verfijnen of over de hardware beschikt om dit de moeite waard te maken. Gebruik glm5.app voor evaluatie, dagelijkse codeerhulp en alles waarvoor geen strikte privacy op het apparaat vereist is.

Veelgestelde vragen

Kan GLM 5.2 gratis lokaal worden uitgevoerd? De gewichten zijn MIT-gelicentieerd en kunnen gratis worden gedownload, uitgevoerd en gewijzigd. De kosten zijn hardware: je hebt minimaal ~239 GB RAM/VRAM nodig voor de 2-bits quant, wat echte lokale gevolgtrekking beperkt tot geavanceerde Mac's of aangepaste werkstations.

Ondersteunt Ollama GLM 5.2 lokaal? Ollama vermeldt GLM 5.2, maar alleen de tag :cloud, die uw aanwijzingen doorstuurt via de API-infrastructuur van Z.AI in plaats van uw lokale hardware. Voor echte lokale gevolgtrekking gebruikt u llama.cpp rechtstreeks met de GGUF-bestanden van Unsloth.

Wat is de minimale hardware om GLM 5.2 lokaal uit te voeren? Het praktische minimum is een M3 Ultra of M4 Ultra Mac Studio met 256 GB uniform geheugen, of een Linux-werkstation met een 24 GB GPU en 256 GB systeem RAM. Minder dan dat en zelfs de 1-bit quant past niet in het geheugen.

Hoe snel draait GLM 5.2 lokaal? Op een Mac Studio van 256 GB (M4 Ultra) met de 2-bit GGUF kun je ongeveer 4-9 tokens/seconde verwachten. Op een GPU-configuratie van 24 GB + 256 GB RAM Linux kunt u 2-5 tokens/seconde verwachten. Bruikbaar voor ontwikkelings- en batchtaken, niet ideaal voor interactief werk waarbij u op elk antwoord wacht.

Kan ik GLM 5.2 lokaal verbinden met OpenAI SDK-tools? Ja. Zowel de servermodus van llama.cpp als LM Studio stellen een OpenAI-compatible REST API bloot (meestal op localhost:11434 of localhost:1234). Elke tool die op de OpenAI SDK is gebouwd, kan naar dat eindpunt verwijzen met een configuratiewijziging van één regel.

De onderste regel

Het lokaal draaien van GLM 5.2 is reëel, maar het vereist eerlijke hardware. De tag Ollama :cloud is een API-wrapper en geen lokale gevolgtrekking. Voor echte werking op het apparaat is het meest toegankelijke pad Unsloth's 2-bit GGUF met llama.cpp op een Mac Studio van 256 GB of een RAM Linux-werkstation met een hoge capaciteit, dat 3-9 tokens/seconde levert op de beste consumentenhardware die momenteel beschikbaar is.

Als u GLM 5.2 wilt uitproberen voordat u een Mac van 256 GB koopt, begin dan hier: probeer GLM 5.2 gratis op glm5.app: geen download, geen sleutels, geen opslag vereist. Zodra u weet dat het bij uw gebruiksscenario past, krijgt u een duidelijk beeld van de vraag of de investering in hardware zinvol is. Bekijk tijdens het evalueren hoe GLM 5.2 presteert op benchmarks en wat de API en abonnementen kosten.

Bronnen

Hardwarevereisten en kwantiseringsgroottes weerspiegelen de gepubliceerde GGUF-specificaties en community-benchmarks van Unsloth vanaf medio 2026. Controleer de huidige cijfers van elke bron voordat u hardware aanschaft.

Begin vandaag met GLM 5

Probeer GLM 5 gratis — redenering, codering, agents en afbeeldingsgeneratie in één platform.