GLM 5.2 をローカルで実行: Ollama、VRAM およびハードウェア ガイド
Jun 28, 2026

GLM 5.2 をローカルで実行: Ollama、VRAM およびハードウェア ガイド

正直な GLM 5.2 ローカル ガイド: Ollama のクラウド タグはローカル推論ではありません。ここでは、数量層ごとに必要な VRAM と、Mac および Linux の正確な llama.cpp 手順を示します。

最初に「GLM 5.2 Ollama」を検索したとき、ollama run glm-5.2 という 1 行のメッセージが表示されると予想していました。私が発見したのは、より興味深いものであり、より正直なものでした。 GLM 5.2 には Ollama オプションが * ありますが、これはほとんどの人が「ローカルで実行する」というときに意味するものではありません。このガイドでは、各セットアップ オプションで実際に得られるもの、実際に必要なハードウェア、および 256 GB の RAM がない場合の GLM 5.2 への最速パスを詳しく説明します。

glm-5.2:cloud の実際の意味

Ollama ライブラリにアクセスして GLM 5.2 を検索すると、それが見つかります。ただし、落とし穴があります。使用可能なタグは :cloud のみです。 ollama run glm-5.2:cloud を実行すると、ローカルの GPU または CPU ではなく、Z.AI の管理されたインフラストラクチャを通じてプロンプトがルーティングされます。これは、オンデバイス推論ではなく、Ollama 人間工学を備えた便利な API ラッパーです。

この区別は重要です。目的がオンデバイスのプライバシー、エアギャップ展開、または API 請求のない推論である場合、Ollama クラウド タグではそれが実現されません。 真のローカル推論の場合は、別のパスが必要です。

実際に GLM 5.2 をローカルで実行できますか?

はい、しかしハードウェアバーは本物です。 Z.AI の 公式リリース によると、GLM 5.2 は 7,440 億パラメータの Mixture-of-Experts モデルで、トークンごとに約 400 億のパラメータがアクティブです。圧縮された形式であっても、これは入手可能な最大のオープンウェイト モデルの 1 つであり、メモリ要件はそれを反映しています。

Unsloth の公開された GGUF バリアント に基づいた、量子化レベルごとの実際の内訳は次のとおりです。

量子化必要なメモリ最小限のハードウェア
UD-IQ1_S (1ビットダイナミック)~223GB256 GB ユニファイド メモリ Mac
UD-IQ2_M (2ビットダイナミック)~239GB256 GB Mac Studio / 1×24 GB GPU + 256 GB RAM
Q4_K_M (4 ビット)~376GBマルチ GPU または 512 GB RAM ワークステーション
FP8 経由 vLLM753GB以上8×H200 または同等品

2 ビット クォント (UD-IQ2_M) はコンシューマ ハードウェアにとって最適な場所であり、強力なコーディング パフォーマンスを維持しながら、最もアクセスしやすいオプションです。設定に応じて、1 秒あたり約 3 ~ 9 トークンが発生すると予想されます。

オプション 1: 256 GB ユニファイド メモリを備えた Mac Studio

192 ~ 256 GB のユニファイド メモリを備えた M3 Ultra または M4 Ultra Mac Studio を使用している場合、これはコンシューマ ハードウェアで利用できる最もクリーンなローカル パスです。 Apple Silicon の統合メモリは、CPU と GPU が同じプールを共有することを意味するため、他のセットアップを複雑にする GPU-CPU の分割を行わずに 2 ビット GGUF をロードできます。

手順:

1. llama.cpp (推論バックエンド) をインストールします。

brew install llama.cpp

または、最新の Metal 最適化のためにソースからビルドします。

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j

2. 2 ビット GGUF を Unsloth からダウンロードします (合計 239 GB、6 つの部分、すべてダウンロード)。

huggingface-cli download unsloth/GLM-5.2-GGUF \
  --include "UD-IQ2_M/*.gguf" \
  --local-dir ./glm52-gguf

pip install huggingface_hub と十分な NVMe ストレージが必要です。ダウンロードには時間がかかります。必要になる前にダウンロードを開始してください。

3.推論の実行:

llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 99 \
  --temp 0.7 \
  -p "Write a Python function that parses a JSON log file..."

-ngl 99 は、すべてのレイヤーを Metal GPU にオフロードします。 256 GB のユニファイド メモリでは、プロンプトのコーディングにおよそ 4 ~ 9 トークン/秒が表示されます。

GUI による代替: CLI を使用したくない場合は、LM Studio は、ビジュアル モデル ブラウザーと組み込みのチャット UI を備えたデスクトップ アプリで llama.cpp をラップします。ダウンロード後に GGUF フォルダーを手動でインポートすると、残りの部分は自動的に処理されます。

オプション 2: Linux GPU ワークステーション

GLM 5.2 をローカルで実行するのに Mac は必要ありませんが、大量のシステム RAM が必要です。 Linux の主要なテクニックは MoE エキスパート オフロードです。アクティブなエキスパート (約 40B パラメータ) を GPU VRAM にロードし、残りのエキスパート プールをシステム RAM に保持し、必要に応じて交換します。

動作する実用的な最小構成: 1× RTX 4090 (24 GB VRAM) + 256 GB DDR5 システム RAM。

約 40B のアクティブ パラメータは、ほとんどが 24 GB GPU に適合します。残りの眠っている専門家は RAM に座っています。これは、Mac Studio よりも遅くなります (およそ 2 ~ 5 トークン/秒) が、開発やバッチのワークロードには機能します。

手順:

1. CUDA サポート付き llama.cpp をインストールします:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

2. 2 ビット GGUF をダウンロードします (上記と同じコマンド)。

3. GPU + CPU オフロードで実行:

./build/bin/llama-cli \
  -m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
  -ngl 30 \
  --temp 0.7 \
  -p "Write a Python function that..."

-ngl の値が低いほど、GPU にオフロードされるレイヤーの数が減り、残りは CPU とシステム RAM に残ります。 30 から始めて、VRAM OOM に達するまで上向きにチューニングし、その後 5 ずつ下げます。GPU が小さい場合は、低い値から始めてください。

オプション 3: エンタープライズ — 8×H200 上の vLLM

実稼働環境で GLM 5.2 を完全な精度で実行しているチームの場合、vLLM または SGLang が推奨されるパスです。 FP8 バリアントには、約 860 GB の VRAM が必要です。8 倍の NVIDIA H200 (それぞれ 141 GB) で合計約 1.1 TB のヘッドルームを実現できます。

pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8

これにより、完全な品質の推論、高い同時スループット、および既存のツールが変更せずにポイントできる localhost:8000 上の OpenAI-compatible エンドポイントが得られます。

コミットする前にコストの計算を行う価値があります。8×H200 ノードは所有またはレンタルすると高価です。これを ~$1.40/1M 入力トークンの Z.AI API と比較して、どちらがボリュームにとって合理的であるかを判断してください。ほとんどのチームにとって、スループット要件が非常に大きくなるまでは、クラウド API が勝ちます。

ゼロハードウェア オプション

これが正直な部分です。ほとんどの開発者は、256 GB のユニファイド メモリや H200 のラックを持っていません。 もしそうなら、GLM 5.2 への最速のパスはブラウザです。

glm5.app を使用すると、ブラウザで GLM 5.2 に無料でアクセスできます。インストールや API キー、239 GB のストレージは必要ありません。同じ MIT ライセンスのウェイトを使用しており、即座に起動し、試すのに費用はかかりません。

特にエアギャップ操作が必要な場合、重みを微調整したい場合、または価値のあるハードウェアを備えている場合は、ローカル セットアップを使用します。 glm5.app は、評価、日常的なコーディングのヘルプ、および厳密なデバイス上のプライバシーを必要としないものに使用します。

よくある質問

GLM 5.2 はローカルで無料で実行できますか? 重みは MIT ライセンスが付与されており、無料でダウンロード、実行、変更できます。コストはハードウェアです。2 ビット クォントの場合、最小で最大 239 GB の RAM/VRAM が必要です。これにより、真のローカル推論がハイエンドの Mac またはカスタム ワークステーションに制限されます。

Ollama はローカルで GLM 5.2 をサポートしていますか? Ollama には GLM 5.2 がリストされますが、:cloud タグのみがリストされます。このタグは、ローカル ハードウェアではなく Z.AI の API インフラストラクチャを介してプロンプトをルーティングします。真のローカル推論を行うには、llama.cpp を Unsloth の GGUF ファイルとともに直接使用します。

GLM 5.2 をローカルで実行するための最小ハードウェアは何ですか? 実際の最小値は、256 GB のユニファイド メモリを搭載した M3 Ultra または M4 Ultra Mac Studio、または 24 GB GPU と 256 GB のシステム RAM を搭載した Linux ワークステーションです。それより小さいと、1 ビットの量子ですらメモリに収まりません。

ローカルでの GLM 5.2 の実行速度はどれくらいですか? 2 ビット GGUF を搭載した 256 GB Mac Studio (M4 Ultra) では、およそ 4 ~ 9 トークン/秒が予想されます。 24 GB GPU + 256 GB RAM Linux セットアップでは、2 ~ 5 トークン/秒が予想されます。開発やバッチ ジョブに使用できますが、すべての応答を待つ対話型作業には適していません。

GLM 5.2 をローカルで OpenAI SDK ツールに接続できますか? はい。 llama.cpp のサーバー モードと LM Studio は両方とも、OpenAI-compatible REST API (通常は localhost:11434 または localhost:1234) を公開します。 OpenAI SDK 上に構築されたツールはどれも、1 行の設定変更でそのエンドポイントをポイントできます。

結論

GLM 5.2 をローカルで実行することは現実的ですが、それには正直なハードウェアが必要です。 Ollama :cloud タグは API ラッパーであり、ローカル推論ではありません。真のオンデバイス操作の場合、最もアクセスしやすいパスは、256 GB Mac Studio または高 RAM Linux ワークステーション上の Unsloth の 2 ビット GGUF と llama.cpp であり、現在入手可能な最高のコンシューマ ハードウェアで 3 ~ 9 トークン/秒を提供します。

256 GB Mac を購入する前に GLM 5.2 を試したい場合は、ここから始めてください: glm5.app で GLM 5.2 を無料でお試しください - ダウンロード、キー、ストレージは必要ありません。自分のユースケースに適していることがわかれば、ハードウェアへの投資が意味があるかどうかが明確にわかります。評価中に、GLM 5.2 のベンチマークでのパフォーマンスAPI とサブスクリプション プランの料金 を確認してください。

情報源

ハードウェア要件と量子化サイズは、2026 年半ばの時点で Unsloth の公開されている GGUF の仕様とコミュニティ ベンチマークを反映しています。ハードウェアを購入する前に、各ソースの現在の数値を確認してください。

今すぐGLM 5を始めよう

GLM 5を無料でお試しください — 推論、コーディング、エージェント、画像生成を一つのプラットフォームで。