Esegui GLM 5.2 localmente: Ollama, VRAM e guida hardware
Jun 28, 2026

Esegui GLM 5.2 localmente: Ollama, VRAM e guida hardware

Guida locale onesta di GLM 5.2: il tag cloud di Ollama non è un'inferenza locale. Ecco l'VRAM di cui hai bisogno in base al livello quantitativo e i passaggi llama.cpp esatti per Mac e Linux.

Quando ho cercato per la prima volta "GLM 5.2 Ollama", mi aspettavo una riga: ollama run glm-5.2. Ciò che ho scoperto è stato più interessante e molto più onesto. Esiste esiste un'opzione Ollama per GLM 5.2, ma non è ciò che la maggior parte delle persone intende quando dice "eseguilo localmente". Questa guida analizza ciò che ottieni effettivamente con ciascuna opzione di configurazione, l'hardware di cui hai veramente bisogno e il percorso più veloce per GLM 5.2 se non hai 256 GB di RAM a portata di mano.

Cosa significa effettivamente glm-5.2:cloud

Se visiti la libreria Ollama e cerchi GLM 5.2, lo troverai, ma con un problema. L'unico tag disponibile è :cloud. L'esecuzione di ollama run glm-5.2:cloud instrada il tuo prompt attraverso l'infrastruttura gestita di Z.AI, non il tuo GPU o CPU locale. È un comodo wrapper API con l'ergonomia Ollama, non inferenza sul dispositivo.

Questa distinzione è importante: se il tuo obiettivo è la privacy sul dispositivo, l'implementazione con air gap o l'inferenza senza fattura API, il tag cloud Ollama non lo fornisce. Per una vera inferenza locale, è necessario un percorso diverso.

Puoi effettivamente eseguire GLM 5.2 localmente?

Sì, ma la barra hardware è reale. Secondo rilascio ufficiale di Z.AI, GLM 5.2 è un modello Mixture-of-Experts da 744 miliardi di parametri con circa 40 miliardi di parametri attivi per token. Anche in formato compresso, è uno dei modelli open-weight più grandi disponibili e i requisiti di memoria lo riflettono.

Ecco la ripartizione pratica per livello di quantizzazione, basata su Varianti GGUF pubblicate da Unsloth:

QuantizzazioneC'è bisogno di memoriaHardware minimo
UD-IQ1_S (dinamico a 1 bit)~223GBMemoria unificata da 256 GB Mac
UD-IQ2_M (dinamico a 2 bit)~239 GB256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM
Q4_K_M (4 bit)~376GBWorkstation multi-GPU o RAM da 512 GB
FP8 tramite vLLM753GB+8×H200 o equivalente

Il quant a 2 bit (UD-IQ2_M) è il punto debole per l'hardware consumer: è l'opzione più accessibile pur mantenendo elevate prestazioni di codifica. Aspettatevi circa 3-9 token al secondo a seconda della configurazione.

Opzione 1: Mac Studio con memoria unificata da 256 GB

Se disponi di un M3 Ultra o M4 Ultra Mac Studio con 192–256 GB di memoria unificata, questo è il percorso locale più pulito disponibile sull'hardware consumer. La memoria unificata di Apple Silicon significa che CPU e GPU condividono lo stesso pool, quindi puoi caricare GGUF a 2 bit senza la divisione GPU-CPU che complica altre configurazioni.

Passaggi:

1. Installa llama.cpp (il backend di inferenza):

brew install llama.cpp

Oppure crea dal sorgente per le ultime ottimizzazioni Metal:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. Scarica GGUF a 2 bit da Unsloth (239 GB totali: sei parti, scarica tutto):

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

Avrai bisogno di pip install huggingface_hub e di spazio di archiviazione sufficiente per NVMe. Il download richiede tempo: avvialo prima che ti serva.

3. Esegui l'inferenza:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 scarica tutti i livelli su Metal GPU. Su una memoria unificata da 256 GB vedrai circa 4-9 token al secondo per le richieste di codifica.

Alternativa alla GUI: Se preferisci non utilizzare la CLI, LM Studio racchiude llama.cpp in un'app desktop con un browser del modello visivo e un'interfaccia utente di chat integrata. Importa manualmente la cartella GGUF dopo il download e lui gestirà il resto.

Opzione 2: stazione di lavoro Linux GPU

Non è necessario un Mac per eseguire GLM 5.2 localmente, ma è necessaria una notevole quantità di sistema RAM. La tecnica chiave su Linux è lo scaricamento degli esperti MoE: carica gli esperti attivi (~40B parametri) sul tuo GPU VRAM e mantieni il resto del pool di esperti nel sistema RAM, scambiandoli secondo necessità.

Minimo pratico che funzioni: 1× RTX 4090 (24 GB VRAM) + sistema DDR5 da 256 GB RAM.

I parametri attivi ~40B si adattano principalmente all'GPU da 24 GB; i restanti esperti del sonno siedono in RAM. È più lento di un Mac Studio (circa 2-5 token al secondo), ma funziona per carichi di lavoro di sviluppo e batch.

Passaggi:

1. Installa llama.cpp con supporto CUDA:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. Scarica GGUF a 2 bit (stesso comando di cui sopra).

3. Funziona con scarico GPU + CPU:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

Valori -ngl inferiori scaricano meno livelli su GPU, lasciando il resto per CPU e il sistema RAM. Inizia da 30 e sintonizzati verso l'alto finché non premi VRAM OOM, quindi torna indietro di 5. Se hai un GPU più piccolo, inizia dal basso.

Opzione 3: Aziendale: vLLM su 8×H200

Per i team che eseguono GLM 5.2 in produzione alla massima precisione, vLLM o SGLang è il percorso consigliato. La variante FP8 richiede circa 860 GB di VRAM, ottenibili con 8× NVIDIA H200 (141 GB ciascuno) per un headroom totale di circa 1,1 TB.

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

Ciò offre inferenza di qualità completa, throughput simultaneo elevato e un endpoint OpenAI-compatible su localhost:8000 a cui gli strumenti esistenti possono puntare senza modifiche.

Vale la pena fare il calcolo dei costi prima di impegnarsi: i nodi 8×H200 sono costosi da possedere o affittare. Confrontalo con l'Z.AI API a ~$1,40/1 milione di token di input e decidi quale ha senso per il tuo volume. Per la maggior parte dei team, il cloud API vince finché i requisiti di throughput non diventano molto elevati.

L'opzione Zero Hardware

Ecco la parte onesta: la maggior parte degli sviluppatori non dispone di 256 GB di memoria unificata o di un rack di H200. Se sei tu, il percorso più veloce per GLM 5.2 è il browser.

glm5.app ti dà accesso gratuito a GLM 5.2 nel tuo browser: nessuna installazione, nessuna chiave API, nessun 239 GB di spazio di archiviazione richiesto. È supportato dagli stessi pesi con licenza MIT, si avvia immediatamente e non costa nulla provarlo.

Utilizza la configurazione locale quando hai specificatamente bisogno di un funzionamento con air gap, vuoi ottimizzare i pesi o avere l'hardware per renderlo utile. Utilizza glm5.app per la valutazione, l'aiuto quotidiano nella codifica e tutto ciò che non richiede una rigorosa privacy sul dispositivo.

Domande frequenti

GLM 5.2 può essere eseguito gratuitamente in locale? I pesi hanno la licenza MIT e possono essere scaricati, eseguiti e modificati gratuitamente. Il costo è legato all'hardware: sono necessari circa 239 GB di RAM/VRAM minimo per la quantità a 2 bit, che limita la vera inferenza locale agli Mac di fascia alta o alle workstation personalizzate.

Ollama supporta GLM 5.2 localmente? Ollama elenca GLM 5.2, ma solo il tag :cloud, che instrada i tuoi messaggi attraverso l'infrastruttura API di Z.AI anziché l'hardware locale. Per una vera inferenza locale, utilizzare llama.cpp direttamente con i file GGUF di Unsloth.

Qual è l'hardware minimo per eseguire GLM 5.2 localmente? Il minimo pratico è un M3 Ultra o M4 Ultra Mac Studio con 256 GB di memoria unificata, oppure una workstation Linux con 24 GB GPU e 256 GB di sistema RAM. Meno di quello e anche il quantitativo da 1 bit non entrerà nella memoria.

Quanto velocemente GLM 5.2 viene eseguito localmente? Su un Mac Studio (M4 Ultra) da 256 GB con GGUF a 2 bit, si prevedono circa 4–9 token/secondo. Su una configurazione GPU da 24 GB + RAM Linux da 256 GB, sono previsti 2-5 token al secondo. Utilizzabile per lavori di sviluppo e batch, non ideale per il lavoro interattivo in cui si attende ogni risposta.

Posso connettere GLM 5.2 localmente agli strumenti OpenAI SDK? Sì. Sia la modalità server di llama.cpp che LM Studio espongono un OpenAI-compatible REST API (in genere su localhost:11434 o localhost:1234). Qualsiasi strumento creato su OpenAI SDK può puntare a quell'endpoint con una modifica della configurazione di una riga.

La linea di fondo

Eseguire GLM 5.2 localmente è reale, ma richiede hardware onesto. Il tag Ollama :cloud è un wrapper API, non un'inferenza locale. Per un vero funzionamento sul dispositivo, il percorso più accessibile è GGUF a 2 bit di Unsloth con llama.cpp su un Mac Studio da 256 GB o una workstation RAM Linux ad alto rendimento, che offre 3-9 token al secondo sul miglior hardware consumer oggi disponibile.

Se vuoi provare GLM 5.2 prima di acquistare un Mac da 256 GB, inizia da qui: prova GLM 5.2 gratuitamente su glm5.app: nessun download, nessuna chiave, nessuno spazio di archiviazione richiesto. Una volta accertato che si adatta al tuo caso d'uso, avrai un quadro chiaro della validità dell'investimento hardware. Durante la valutazione, dai un'occhiata a come si comporta GLM 5.2 rispetto ai benchmark e quanto costano API e i piani di abbonamento.

Fonti

I requisiti hardware e le dimensioni di quantizzazione riflettono le specifiche GGUF pubblicate e i benchmark della community di Unsloth a metà del 2026. Verifica i dati attuali su ciascuna fonte prima di acquistare l'hardware.

Inizia a usare GLM 5 oggi

Prova GLM 5 gratis — ragionamento, programmazione, agenti e generazione di immagini in un'unica piattaforma.