Kjør GLM 5.2 lokalt: Ollama, VRAM og maskinvareveiledning
Jun 28, 2026

Kjør GLM 5.2 lokalt: Ollama, VRAM og maskinvareveiledning

Ærlig GLM 5.2 lokal guide: Ollama sin sky-tag er ikke lokal slutning. Her er VRAM du trenger etter quant tier og nøyaktige llama.cpp-trinn for Mac og Linux.

Da jeg først søkte "GLM 5.2 Ollama," forventet jeg en one-liner: ollama run glm-5.2. Det jeg fant var mer interessant – og mye mer ærlig. Det finnes et Ollama-alternativ for GLM 5.2, men det er ikke det folk flest mener når de sier «kjør det lokalt». Denne guiden bryter ned hva du faktisk får med hvert oppsettsalternativ, hvilken maskinvare du virkelig trenger, og den raskeste veien til GLM 5.2 hvis du ikke har 256 GB med RAM.

Hva glm-5.2:cloud faktisk betyr

Hvis du besøker Ollama-biblioteket og søker etter GLM 5.2, finner du det – men med en hake. Den eneste tilgjengelige taggen er :cloud. Å kjøre ollama run glm-5.2:cloud ruter forespørselen din gjennom Z.AIs administrerte infrastruktur, ikke din lokale GPU eller CPU. Det er en praktisk API-innpakning med Ollama-ergonomi, ikke slutning på enheten.

Denne forskjellen er viktig: hvis målet ditt er personvern på enheten, distribusjon med lufthull eller slutninger uten API-regning, leverer ikke Ollama-skytaggen det. For ekte lokal slutning trenger du en annen vei.

Kan du faktisk kjøre GLM 5.2 lokalt?

Ja, men maskinvarelinjen er ekte. I følge Z.AIs offisiell utgivelse er GLM 5.2 en Mixture-of-Experts-modell med 744 milliarder parametere med omtrent 40 milliarder aktive parametere per token. Selv i komprimert form er det en av de største modellene med åpen vekt som er tilgjengelig, og minnekravene gjenspeiler det.

Her er den praktiske fordelingen etter kvantiseringsnivå, basert på Unsloths publiserte GGUF-varianter:

KvantiseringMinne trengsMinimum maskinvare
UD-IQ1_S (1-bits dynamisk)~223 GB256 GB enhetlig minne Mac
UD-IQ2_M (2-bits dynamisk)~239 GB256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM
Q4_K_M (4-bit)~376 GBMulti-GPU eller 512 GB RAM arbeidsstasjon
FP8 via vLLM753 GB+8×H200 eller tilsvarende

2-bits quant (UD-IQ2_M) er sweet spot for forbrukermaskinvare – det er det mest tilgjengelige alternativet samtidig som den beholder sterk kodeytelse. Forvent omtrent 3–9 tokens per sekund, avhengig av oppsettet ditt.

Alternativ 1: Mac Studio med 256 GB enhetlig minne

Hvis du har en M3 Ultra eller M4 Ultra Mac Studio med 192–256 GB enhetlig minne, er dette den reneste lokale banen tilgjengelig på forbrukermaskinvare. Apple Silicon sitt enhetlige minne betyr at CPU og GPU deler samme pool, slik at du kan laste 2-bit GGUF uten GPU-CPU splittelsen som kompliserer andre oppsett.

Trinn:

1. Installer llama.cpp (slutningsstøtten):

brew install llama.cpp

Eller bygg fra kilden for de siste Metal-optimaliseringene:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Last ned 2-bit GGUF fra Unsloth (totalt 239 GB – seks deler, last ned alle):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Du trenger pip install huggingface_hub og nok NVMe lagring. Nedlastingen tar tid – start den før du trenger den.

3. Kjør slutning:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 avlaster alle lag til Metal GPU. På 256 GB enhetlig minne vil du se omtrent 4–9 tokens/sekund for kodemeldinger.

GUI-alternativ: Hvis du foretrekker å ikke bruke CLI, pakker LM Studio llama.cpp inn i en skrivebordsapp med en visuell modellnettleser og innebygd chat-UI. Importer GGUF-mappen manuelt etter nedlasting, og den håndterer resten.

Alternativ 2: Linux GPU arbeidsstasjon

Du trenger ikke en Mac for å kjøre GLM 5.2 lokalt – men du trenger en seriøs mengde system RAM. Nøkkelteknikken på Linux er MoE ekspertavlastning: last de aktive ekspertene (~40B parametere) på GPU VRAM og behold resten av ekspertgruppen i system RAM, bytt etter behov.

Praktisk minimum som fungerer: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5-system RAM.

De ~40B aktive parameterne passer stort sett på 24 GB GPU; de resterende soveekspertene sitter i RAM. Den er tregere enn en Mac Studio—omtrent 2–5 tokens/sekund—men den fungerer for utvikling og batch-arbeidsbelastninger.

Trinn:

1. Installer llama.cpp med CUDA-støtte:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Last ned 2-bit GGUF (samme kommando som ovenfor).

3. Kjør med GPU + CPU avlastning:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Lavere -ngl-verdier avlaster færre lag til GPU, mens resten blir igjen for CPU og systemet RAM. Start på 30 og still inn oppover til du treffer VRAM OOM, deretter tilbake med 5. Hvis du har en mindre GPU, start lavere.

Alternativ 3: Enterprise — vLLM på 8×H200

For team som kjører GLM 5.2 i produksjon med full presisjon, er vLLM eller SGLang den anbefalte banen. FP8-varianten krever omtrent 860 GB VRAM – oppnåelig med 8× NVIDIA H200 (141 GB hver) for omtrent 1,1 TB total takhøyde.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Dette gir deg slutning av full kvalitet, høy samtidig gjennomstrømning og et OpenAI-compatible-endepunkt på localhost:8000 som ditt eksisterende verktøy kan peke på uten endringer.

Kostnadsmatematikken er verdt å gjøre før du forplikter deg: 8×H200-noder er dyre å eie eller leie. Sammenlign det med Z.AI API på ~$1,40/1M input tokens og bestem deg for hva som er fornuftig for volumet ditt. For de fleste team vinner skyen API inntil gjennomstrømningskravene blir veldig store.

Null-maskinvarealternativet

Her er den ærlige delen: de fleste utviklere har ikke 256 GB enhetlig minne eller et rack med H200. Hvis det er deg, er nettleseren den raskeste veien til GLM 5.2.

glm5.app gir deg gratis tilgang til GLM 5.2 i nettleseren din – ingen installasjon, ingen API-nøkkel, ingen 239 GB lagringsplass kreves. Den støttes av de samme MIT-lisensierte vektene, starter umiddelbart og koster ingenting å prøve.

Bruk det lokale oppsettet når du spesifikt trenger luftgapet drift, ønsker å finjustere vektene eller har maskinvaren som gjør det verdt det. Bruk glm5.app for evaluering, daglig kodingshjelp og alt som ikke krever strengt personvern på enheten.

Ofte stilte spørsmål

Er GLM 5.2 gratis å kjøre lokalt? Vektene er MIT-lisensiert – gratis å laste ned, kjøre og endre. Kostnaden er maskinvare: du trenger minimum ~239 GB RAM/VRAM for 2-bits kvanten, som begrenser sann lokal slutning til avanserte Mac-er eller tilpassede arbeidsstasjoner.

Støtter Ollama GLM 5.2 lokalt? Ollama viser GLM 5.2, men bare :cloud-taggen – som ruter forespørslene dine gjennom Z.AIs API-infrastruktur i stedet for din lokale maskinvare. For ekte lokal slutning, bruk llama.cpp med Unsloth sine GGUF-filer direkte.

Hva er minimumsmaskinvaren for å kjøre GLM 5.2 lokalt? Det praktiske minimum er en M3 Ultra eller M4 Ultra Mac Studio med 256 GB enhetlig minne, eller en Linux arbeidsstasjon med en 24 GB GPU og 256 GB system RAM. Mindre enn det, og til og med 1-bits kvant vil ikke passe i minnet.

Hvor raskt kjører GLM 5.2 lokalt? På en 256 GB Mac Studio (M4 Ultra) med 2-bit GGUF, forvent omtrent 4–9 tokens/sekund. På et 24 GB GPU + 256 GB RAM Linux-oppsett, forvent 2–5 tokens/sekund. Brukbar for utvikling og batchjobber, ikke ideell for interaktivt arbeid der du venter på hvert svar.

Kan jeg koble GLM 5.2 lokalt til OpenAI SDK-verktøy? Ja. Både llama.cpps servermodus og LM Studio viser en OpenAI-compatible REST API (vanligvis på localhost:11434 eller localhost:1234). Ethvert verktøy bygget på OpenAI SDK kan peke på det endepunktet med en konfigurasjonsendring på én linje.

Bunnlinjen

Å kjøre GLM 5.2 lokalt er ekte – men det krever ærlig maskinvare. Ollama :cloud-taggen er en API-innpakning, ikke lokal slutning. For ekte drift på enheten er den mest tilgjengelige banen Unsloths 2-bits GGUF med llama.cpp på en 256 GB Mac Studio eller en høy RAM Linux arbeidsstasjon, som leverer den beste maskinvaren som er tilgjengelig for forbrukere fra 3–9 til i dag.

Hvis du vil prøve GLM 5.2 før du kjøper en 256 GB Mac, start her: prøv GLM 5.2 gratis på glm5.app—ingen nedlasting, ingen nøkler, ingen lagringsplass nødvendig. Når du vet at den passer til ditt bruksområde, vil du ha et klart bilde av om maskinvareinvesteringen er fornuftig. Mens du evaluerer, sjekk ut hvordan GLM 5.2 presterer på benchmarks og hva API og abonnementsplaner koster.

Kilder

Maskinvarekrav og kvantiseringsstørrelser gjenspeiler Unsloths publiserte GGUF-spesifikasjoner og fellesskapsstandarder fra midten av 2026. Bekreft gjeldende tall på hver kilde før du kjøper maskinvare.

Begynn å bruke GLM 5 i dag

Prøv GLM 5 gratis — resonnering, koding, agenter og bildegenerering i én plattform.