Kør GLM 5.2 lokalt: Ollama, VRAM & hardwareguide
Jun 28, 2026

Kør GLM 5.2 lokalt: Ollama, VRAM & hardwareguide

Ærlig GLM 5.2 lokal guide: Ollama's cloud-tag er ikke lokal slutning. Her er den VRAM, du har brug for efter kvant-tier og nøjagtige llama.cpp-trin til Mac og Linux.

Da jeg første gang søgte "GLM 5.2 Ollama," forventede jeg en one-liner: ollama run glm-5.2. Det, jeg fandt, var mere interessant – og meget mere ærligt. Der er en Ollama mulighed for GLM 5.2, men det er ikke det, de fleste mennesker mener, når de siger "kør det lokalt." Denne guide opdeler, hvad du faktisk får med hver opsætningsmulighed, hvilken hardware du virkelig har brug for, og den hurtigste vej til GLM 5.2, hvis du ikke har 256 GB RAM siddende.

Hvad glm-5.2:cloud faktisk betyder

Hvis du besøger Ollama-biblioteket og søger efter GLM 5.2, finder du det – men med en fangst. Det eneste tilgængelige tag er :cloud. Kørsel af ollama run glm-5.2:cloud dirigerer din prompt gennem Z.AI's administrerede infrastruktur, ikke din lokale GPU eller CPU. Det er en praktisk API-indpakning med Ollama-ergonomi, ikke slutninger på enheden.

Denne skelnen er vigtig: hvis dit mål er privatliv på enheden, luftgab-implementering eller slutninger uden nogen API-regning, leverer Ollama-skytagget det ikke. For ægte lokal slutning skal du bruge en anden vej.

Kan du faktisk køre GLM 5.2 lokalt?

Ja - men hardwarelinjen er ægte. Ifølge Z.AI's officiel udgivelse er GLM 5.2 en Mixture-of-Experts-model med 744 milliarder parametre med omkring 40 milliarder aktive parametre pr. token. Selv i komprimeret form er det en af ​​de største modeller med åben vægt på markedet, og hukommelseskravene afspejler det.

Her er den praktiske opdeling efter kvantiseringsniveau, baseret på Unsloth's offentliggjorte GGUF varianter:

KvantiseringHukommelse nødvendigMinimum hardware
UD-IQ1_S (1-bit dynamisk)~223 GB256 GB samlet hukommelse Mac
UD-IQ2_M (2-bit dynamisk)~239 GB256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM
Q4_K_M (4-bit)~376 GBMulti-GPU eller 512 GB RAM arbejdsstation
FP8 via vLLM753 GB+8×H200 eller tilsvarende

2-bit quant (UD-IQ2_M) er det bedste sted for forbrugerhardware – det er den mest tilgængelige mulighed, mens den stadig bevarer en stærk kodningsydelse. Forvent omkring 3-9 tokens i sekundet afhængigt af din opsætning.

Mulighed 1: Mac Studio med 256 GB Unified Memory

Hvis du har en M3 Ultra eller M4 Ultra Mac Studio med 192–256 GB samlet hukommelse, er dette den reneste lokale sti tilgængelig på forbrugerhardware. Apple Silicon's forenede hukommelse betyder, at dine CPU og GPU deler den samme pulje, så du kan indlæse 2-bit GGUF uden GPU-CPU splittet, der komplicerer andre opsætninger.

Trin:

1. Installer llama.cpp (inferens-backend):

brew install llama.cpp

Eller byg fra kilden til de seneste Metal-optimeringer:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Download 2-bit GGUF fra Unsloth (239 GB i alt - seks dele, download alle):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Du skal bruge pip install huggingface_hub og nok NVMe lagerplads. Downloaden tager tid - start den, før du har brug for den.

3. Kør inferens:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 aflaster alle lag til Metal GPU. På 256 GB samlet hukommelse vil du se omkring 4-9 tokens/sekund for kodningsprompts.

GUI-alternativ: Hvis du foretrækker ikke at bruge CLI, omslutter LM Studio llama.cpp i en desktop-app med en visuel modelbrowser og indbygget chat-brugergrænseflade. Importer GGUF-mappen manuelt efter download, og den klarer resten.

Mulighed 2: Linux GPU Workstation

Du behøver ikke en Mac for at køre GLM 5.2 lokalt – men du har brug for en seriøs mængde system RAM. Nøgleteknikken på Linux er MoE ekspertaflæsning: Indlæs de aktive eksperter (~40B parametre) på din GPU VRAM og behold resten af ​​ekspertpuljen i system RAM, skift efter behov.

Praktisk minimum, der virker: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5-system RAM.

De ~40B aktive parametre passer for det meste på 24 GB GPU; de resterende sovende eksperter sidder i RAM. Den er langsommere end en Mac Studio - omkring 2-5 tokens/sekund - men den virker til udvikling og batch-arbejdsbelastninger.

Trin:

1. Installer llama.cpp med CUDA-understøttelse:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Download 2-bit GGUF (samme kommando som ovenfor).

3. Kør med GPU + CPU offload:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Lavere -ngl-værdier aflaster færre lag til GPU, mens resten efterlades til CPU og systemet RAM. Start ved 30 og tune opad, indtil du rammer VRAM OOM, og derefter gå tilbage med 5. Hvis du har en mindre GPU, start lavere.

Mulighed 3: Enterprise — vLLM på 8×H200

For hold, der kører GLM 5.2 i produktion med fuld præcision, er vLLM eller SGLang den anbefalede vej. FP8-varianten kræver cirka 860 GB VRAM – opnåelig med 8× NVIDIA H200 (141 GB hver) til ca. 1,1 TB total frihøjde.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Dette giver dig inferens i fuld kvalitet, høj samtidig gennemløb og et OpenAI-compatible-endepunkt på localhost:8000, som dit eksisterende værktøj kan pege på uden ændringer.

Omkostningsmatematikken er værd at gøre, før du forpligter dig: 8×H200 noder er dyre at eje eller leje. Sammenlign det med Z.AI API ved ~$1,40/1M input-tokens og beslut, hvad der giver mening for din volumen. For de fleste hold vinder skyen API, indtil gennemstrømningskravene bliver meget store.

Nul-hardware-indstillingen

Her er den ærlige del: de fleste udviklere har ikke 256 GB samlet hukommelse eller et rack med H200. Hvis det er dig, er den hurtigste vej til GLM 5.2 browseren.

glm5.app giver dig gratis adgang til GLM 5.2 i din browser – ingen installation, ingen API-nøgle, ingen 239 GB lagerplads påkrævet. Den understøttes af de samme MIT-licenserede vægte, starter øjeblikkeligt og koster ingenting at prøve.

Brug den lokale opsætning, når du specifikt har brug for luftspaltet drift, ønsker at finjustere vægtene eller har hardwaren til at gøre det umagen værd. Brug glm5.app til evaluering, daglig kodningshjælp og alt, hvad der ikke kræver strengt privatliv på enheden.

Ofte stillede spørgsmål

Er GLM 5.2 gratis at køre lokalt? Vægtene er MIT-licenseret – gratis at downloade, køre og ændre. Omkostningerne er hardware: du har brug for ~239 GB RAM/VRAM minimum for 2-bit kvant, hvilket begrænser ægte lokal inferens til avancerede Mac'er eller brugerdefinerede arbejdsstationer.

Understøtter Ollama GLM 5.2 lokalt? Ollama viser GLM 5.2, men kun :cloud-tagget – som dirigerer dine prompter gennem Z.AI's API-infrastruktur i stedet for din lokale hardware. For ægte lokal inferens, brug llama.cpp med Unsloth's GGUF filer direkte.

Hvad er minimumshardwaren for at køre GLM 5.2 lokalt? Det praktiske minimum er en M3 Ultra eller M4 Ultra Mac Studio med 256 GB samlet hukommelse eller en Linux arbejdsstation med en 24 GB GPU og 256 GB system RAM. Mindre end det, og selv 1-bit kvant vil ikke passe i hukommelsen.

Hvor hurtigt kører GLM 5.2 lokalt? På en 256 GB Mac Studio (M4 Ultra) med 2-bit GGUF kan du forvente cirka 4-9 tokens/sekund. På en 24 GB GPU + 256 GB RAM Linux opsætning skal du forvente 2-5 tokens/sekund. Anvendelig til udvikling og batchjob, ikke ideel til interaktivt arbejde, hvor du venter på hvert svar.

Kan jeg forbinde GLM 5.2 lokalt til OpenAI SDK-værktøjer? Ja. Både llama.cpp's servertilstand og LM Studio afslører en OpenAI-compatible REST API (typisk på localhost:11434 eller localhost:1234). Ethvert værktøj bygget på OpenAI SDK kan pege på det endepunkt med en konfigurationsændring på én linje.

Bundlinjen

At køre GLM 5.2 lokalt er rigtigt - men det kræver ærlig hardware. Ollama :cloud-mærket er en API-indpakning, ikke lokal inferens. For ægte betjening på enheden er den mest tilgængelige vej Unsloth's 2-bit GGUF med llama.cpp på en 256 GB Mac Studio eller en high-RAM Linux arbejdsstation, der leverer den bedste hardware, der er tilgængelig for forbrugere i dag.

Hvis du vil prøve GLM 5.2, før du køber en 256 GB Mac, skal du starte her: prøv GLM 5.2 gratis på glm5.app—ingen download, ingen nøgler, ingen opbevaring nødvendig. Når du ved, at det passer til din brugssituation, har du et klart billede af, om hardwareinvesteringen giver mening. Mens du evaluerer, så tjek hvordan GLM 5.2 klarer sig på benchmarks og hvad API og abonnementsplaner koster.

Kilder

Hardwarekrav og kvantiseringsstørrelser afspejler Unsloth's offentliggjorte GGUF-specifikationer og community-benchmarks fra midten af 2026. Bekræft de aktuelle tal på hver kilde, før du køber hardware.

Begynd at bruge GLM 5 i dag

Prøv GLM 5 gratis — ræsonnering, kodning, agenter og billedgenerering på en platform.