最初に「GLM 5.2 Ollama」を検索したとき、ollama run glm-5.2 という 1 行のメッセージが表示されると予想していました。私が発見したのは、より興味深いものであり、より正直なものでした。 GLM 5.2 には Ollama オプションが * ありますが、これはほとんどの人が「ローカルで実行する」というときに意味するものではありません。このガイドでは、各セットアップ オプションで実際に得られるもの、実際に必要なハードウェア、および 256 GB の RAM がない場合の GLM 5.2 への最速パスを詳しく説明します。
glm-5.2:cloud の実際の意味
Ollama ライブラリにアクセスして GLM 5.2 を検索すると、それが見つかります。ただし、落とし穴があります。使用可能なタグは :cloud のみです。 ollama run glm-5.2:cloud を実行すると、ローカルの GPU または CPU ではなく、Z.AI の管理されたインフラストラクチャを通じてプロンプトがルーティングされます。これは、オンデバイス推論ではなく、Ollama 人間工学を備えた便利な API ラッパーです。
この区別は重要です。目的がオンデバイスのプライバシー、エアギャップ展開、または API 請求のない推論である場合、Ollama クラウド タグではそれが実現されません。 真のローカル推論の場合は、別のパスが必要です。
実際に GLM 5.2 をローカルで実行できますか?
はい、しかしハードウェアバーは本物です。 Z.AI の 公式リリース によると、GLM 5.2 は 7,440 億パラメータの Mixture-of-Experts モデルで、トークンごとに約 400 億のパラメータがアクティブです。圧縮された形式であっても、これは入手可能な最大のオープンウェイト モデルの 1 つであり、メモリ要件はそれを反映しています。
Unsloth の公開された GGUF バリアント に基づいた、量子化レベルごとの実際の内訳は次のとおりです。
| 量子化 | 必要なメモリ | 最小限のハードウェア |
|---|---|---|
| UD-IQ1_S (1ビットダイナミック) | ~223GB | 256 GB ユニファイド メモリ Mac |
| UD-IQ2_M (2ビットダイナミック) | ~239GB | 256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM |
| Q4_K_M (4 ビット) | ~376GB | マルチ GPU または 512 GB RAM ワークステーション |
| FP8 経由 vLLM | 753GB以上 | 8×H200 または同等品 |
2 ビット クォント (UD-IQ2_M) はコンシューマ ハードウェアにとって最適な場所であり、強力なコーディング パフォーマンスを維持しながら、最もアクセスしやすいオプションです。設定に応じて、1 秒あたり約 3 ~ 9 トークンが発生すると予想されます。
オプション 1: 256 GB ユニファイド メモリを備えた Mac Studio
192 ~ 256 GB のユニファイド メモリを備えた M3 Ultra または M4 Ultra Mac Studio を使用している場合、これはコンシューマ ハードウェアで利用できる最もクリーンなローカル パスです。 Apple Silicon の統合メモリは、CPU と GPU が同じプールを共有することを意味するため、他のセットアップを複雑にする GPU-CPU の分割を行わずに 2 ビット GGUF をロードできます。
手順:
1. llama.cpp (推論バックエンド) をインストールします。
brew install llama.cppまたは、最新の Metal 最適化のためにソースからビルドします。
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j2. 2 ビット GGUF を Unsloth からダウンロードします (合計 239 GB、6 つの部分、すべてダウンロード)。
huggingface-cli download unsloth/GLM-5.2-GGUF \
--include "UD-IQ2_M/*.gguf" \
--local-dir ./glm52-ggufpip install huggingface_hub と十分な NVMe ストレージが必要です。ダウンロードには時間がかかります。必要になる前にダウンロードを開始してください。
3.推論の実行:
llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 99 \
--temp 0.7 \
-p "Write a Python function that parses a JSON log file..."-ngl 99 は、すべてのレイヤーを Metal GPU にオフロードします。 256 GB のユニファイド メモリでは、プロンプトのコーディングにおよそ 4 ~ 9 トークン/秒が表示されます。
GUI による代替: CLI を使用したくない場合は、LM Studio は、ビジュアル モデル ブラウザーと組み込みのチャット UI を備えたデスクトップ アプリで llama.cpp をラップします。ダウンロード後に GGUF フォルダーを手動でインポートすると、残りの部分は自動的に処理されます。
オプション 2: Linux GPU ワークステーション
GLM 5.2 をローカルで実行するのに Mac は必要ありませんが、大量のシステム RAM が必要です。 Linux の主要なテクニックは MoE エキスパート オフロードです。アクティブなエキスパート (約 40B パラメータ) を GPU VRAM にロードし、残りのエキスパート プールをシステム RAM に保持し、必要に応じて交換します。
動作する実用的な最小構成: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5 システム RAM。
約 40B のアクティブ パラメータは、ほとんどが 24 GB GPU に適合します。残りの眠っている専門家は RAM に座っています。これは、Mac Studio よりも遅くなります (およそ 2 ~ 5 トークン/秒) が、開発やバッチのワークロードには機能します。
手順:
1. CUDA サポート付き llama.cpp をインストールします:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j2. 2 ビット GGUF をダウンロードします (上記と同じコマンド)。
3. GPU + CPU オフロードで実行:
./build/bin/llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 30 \
--temp 0.7 \
-p "Write a Python function that..."-ngl の値が低いほど、GPU にオフロードされるレイヤーの数が減り、残りは CPU とシステム RAM に残ります。 30 から始めて、VRAM OOM に達するまで上向きにチューニングし、その後 5 ずつ下げます。GPU が小さい場合は、低い値から始めてください。
オプション 3: エンタープライズ — 8×H200 上の vLLM
実稼働環境で GLM 5.2 を完全な精度で実行しているチームの場合、vLLM または SGLang が推奨されるパスです。 FP8 バリアントには、約 860 GB の VRAM が必要です。8 倍の NVIDIA H200 (それぞれ 141 GB) で合計約 1.1 TB のヘッドルームを実現できます。
pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8これにより、完全な品質の推論、高い同時スループット、および既存のツールが変更せずにポイントできる localhost:8000 上の OpenAI-compatible エンドポイントが得られます。
コミットする前にコストの計算を行う価値があります。8×H200 ノードは所有またはレンタルすると高価です。これを ~$1.40/1M 入力トークンの Z.AI API と比較して、どちらがボリュームにとって合理的であるかを判断してください。ほとんどのチームにとって、スループット要件が非常に大きくなるまでは、クラウド API が勝ちます。
ゼロハードウェア オプション
これが正直な部分です。ほとんどの開発者は、256 GB のユニファイド メモリや H200 のラックを持っていません。 もしそうなら、GLM 5.2 への最速のパスはブラウザです。
glm5.app を使用すると、ブラウザで GLM 5.2 に無料でアクセスできます。インストールや API キー、239 GB のストレージは必要ありません。同じ MIT ライセンスのウェイトを使用しており、即座に起動し、試すのに費用はかかりません。
特にエアギャップ操作が必要な場合、重みを微調整したい場合、または価値のあるハードウェアを備えている場合は、ローカル セットアップを使用します。 glm5.app は、評価、日常的なコーディングのヘルプ、および厳密なデバイス上のプライバシーを必要としないものに使用します。
よくある質問
GLM 5.2 はローカルで無料で実行できますか? 重みは MIT ライセンスが付与されており、無料でダウンロード、実行、変更できます。コストはハードウェアです。2 ビット クォントの場合、最小で最大 239 GB の RAM/VRAM が必要です。これにより、真のローカル推論がハイエンドの Mac またはカスタム ワークステーションに制限されます。
Ollama はローカルで GLM 5.2 をサポートしていますか?
Ollama には GLM 5.2 がリストされますが、:cloud タグのみがリストされます。このタグは、ローカル ハードウェアではなく Z.AI の API インフラストラクチャを介してプロンプトをルーティングします。真のローカル推論を行うには、llama.cpp を Unsloth の GGUF ファイルとともに直接使用します。
GLM 5.2 をローカルで実行するための最小ハードウェアは何ですか? 実際の最小値は、256 GB のユニファイド メモリを搭載した M3 Ultra または M4 Ultra Mac Studio、または 24 GB GPU と 256 GB のシステム RAM を搭載した Linux ワークステーションです。それより小さいと、1 ビットの量子ですらメモリに収まりません。
ローカルでの GLM 5.2 の実行速度はどれくらいですか? 2 ビット GGUF を搭載した 256 GB Mac Studio (M4 Ultra) では、およそ 4 ~ 9 トークン/秒が予想されます。 24 GB GPU + 256 GB RAM Linux セットアップでは、2 ~ 5 トークン/秒が予想されます。開発やバッチ ジョブに使用できますが、すべての応答を待つ対話型作業には適していません。
GLM 5.2 をローカルで OpenAI SDK ツールに接続できますか?
はい。 llama.cpp のサーバー モードと LM Studio は両方とも、OpenAI-compatible REST API (通常は localhost:11434 または localhost:1234) を公開します。 OpenAI SDK 上に構築されたツールはどれも、1 行の設定変更でそのエンドポイントをポイントできます。
結論
GLM 5.2 をローカルで実行することは現実的ですが、それには正直なハードウェアが必要です。 Ollama :cloud タグは API ラッパーであり、ローカル推論ではありません。真のオンデバイス操作の場合、最もアクセスしやすいパスは、256 GB Mac Studio または高 RAM Linux ワークステーション上の Unsloth の 2 ビット GGUF と llama.cpp であり、現在入手可能な最高のコンシューマ ハードウェアで 3 ~ 9 トークン/秒を提供します。
256 GB Mac を購入する前に GLM 5.2 を試したい場合は、ここから始めてください: glm5.app で GLM 5.2 を無料でお試しください - ダウンロード、キー、ストレージは必要ありません。自分のユースケースに適していることがわかれば、ハードウェアへの投資が意味があるかどうかが明確にわかります。評価中に、GLM 5.2 のベンチマークでのパフォーマンス と API とサブスクリプション プランの料金 を確認してください。
情報源
- unsloth/GLM-5.2-GGUF — 量子化された GGUF バリアントとメモリ要件
- Z.AI — GLM-5.2: 長期的なタスク向けに構築 (Hugging Face 公式ブログ)
- Ollama ライブラリ: glm-5.2 (クラウド タグのドキュメント)
ハードウェア要件と量子化サイズは、2026 年半ばの時点で Unsloth の公開されている GGUF の仕様とコミュニティ ベンチマークを反映しています。ハードウェアを購入する前に、各ソースの現在の数値を確認してください。

