عندما بحثت لأول مرة عن "GLM 5.2 Ollama"، توقعت أن يكون هناك سطر واحد: ollama run glm-5.2. ما وجدته كان أكثر إثارة للاهتمام، وأكثر صدقًا. يوجد *خيار Ollama لـ GLM 5.2، ولكن هذا ليس ما يعنيه معظم الناس عندما يقولون "تشغيله محليًا". يشرح هذا الدليل ما تحصل عليه فعليًا مع كل خيار إعداد، وما هي الأجهزة التي تحتاجها حقًا، وأسرع مسار إلى GLM 5.2 إذا لم يكن لديك 256 جيجابايت من RAM.
ماذا يعني glm-5.2:cloud في الواقع
إذا قمت بزيارة مكتبة Ollama وبحثت عن GLM 5.2، فستجده، ولكن مع وجود ميزة الالتقاط. العلامة الوحيدة المتاحة هي :cloud. يؤدي تشغيل ollama run glm-5.2:cloud إلى توجيه مطالبتك عبر البنية الأساسية المُدارة لـ Z.AI، وليس GPU أو CPU المحلي. إنها عبارة عن غلاف API مريح مع بيئة عمل Ollama، وليس الاستدلال على الجهاز.
هذا التمييز مهم: إذا كان هدفك هو الخصوصية على الجهاز، أو النشر المباشر، أو الاستدلال بدون فاتورة API، فإن العلامة السحابية Ollama لا توفر ذلك. للحصول على الاستدلال المحلي الحقيقي، تحتاج إلى مسار مختلف.
هل يمكنك بالفعل تشغيل GLM 5.2 محليًا؟
نعم، ولكن شريط الأجهزة حقيقي. وفقًا لـ Z.AI's الافراج الرسمي، فإن GLM 5.2 عبارة عن نموذج Mixture-of-Experts يحتوي على 744 مليار معلمة مع ما يقرب من 40 مليار معلمة نشطة لكل رمز مميز. حتى في شكل مضغوط، فهو أحد أكبر النماذج المتاحة ذات الوزن المفتوح، وتعكس متطلبات الذاكرة ذلك.
فيما يلي التقسيم العملي حسب مستوى التكميم، بناءً على متغيرات GGUF المنشورة من Unsloth:
| التكميم | الذاكرة اللازمة | الحد الأدنى من الأجهزة |
|---|---|---|
| UD-IQ1_S (ديناميكي 1 بت) | ~223 جيجابايت | ذاكرة موحدة 256 جيجابايت Mac |
| UD-IQ2_M (ديناميكي 2 بت) | ~239 جيجابايت | 256 جيجابايت Mac Studio / 1×24 جيجابايت GPU + 256 جيجابايت RAM |
| Q4_K_M (4 بت) | ~376 جيجابايت | محطة عمل Multi-GPU أو 512 جيجابايت RAM |
| FP8 عبر vLLM | 753 جيجابايت+ | 8×H200 أو ما يعادلها |
يعد الكم 2 بت (UD-IQ2_M) هو المكان المناسب لأجهزة المستهلك - فهو الخيار الأكثر سهولة مع الحفاظ على أداء الترميز القوي. توقع ما يقرب من 3 إلى 9 رموز في الثانية اعتمادًا على الإعداد الخاص بك.
الخيار 1: Mac Studio بذاكرة موحدة سعة 256 جيجابايت
إذا كان لديك M3 Ultra أو M4 Ultra Mac Studio بذاكرة موحدة تتراوح سعتها بين 192 و256 جيجابايت، فهذا هو المسار المحلي الأنظف المتوفر على أجهزة المستهلك. الذاكرة الموحدة لـ Apple Silicon تعني أن CPU وGPU يشتركان في نفس المجمع، لذا يمكنك تحميل GGUF 2 بت بدون تقسيم GPU-CPU الذي يعقد الإعدادات الأخرى.
خطوات:
1. تثبيت llama.cpp (الواجهة الخلفية للاستدلال):
brew install llama.cppأو قم بالبناء من المصدر للحصول على أحدث تحسينات Metal:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j2. قم بتنزيل GGUF 2 بت من Unsloth (إجمالي 239 جيجابايت — ستة أجزاء، تنزيل الكل):
huggingface-cli download unsloth/GLM-5.2-GGUF \
--include "UD-IQ2_M/*.gguf" \
--local-dir ./glm52-ggufستحتاج إلى pip install huggingface_hub ومساحة تخزين كافية NVMe. يستغرق التنزيل بعض الوقت، لذا ابدأ قبل أن تحتاج إليه.
**3. تشغيل الاستدلال: **
llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 99 \
--temp 0.7 \
-p "Write a Python function that parses a JSON log file..."يقوم -ngl 99 بتفريغ جميع الطبقات إلى Metal GPU. في الذاكرة الموحدة التي تبلغ سعتها 256 جيجابايت، سترى ما يقرب من 4 إلى 9 رموز مميزة في الثانية لمطالبات البرمجة.
بديل واجهة المستخدم الرسومية: إذا كنت تفضل عدم استخدام واجهة سطر الأوامر، فإن LM Studio يغلف llama.cpp في تطبيق سطح المكتب مع متصفح نموذجي مرئي وواجهة مستخدم للدردشة مدمجة. قم باستيراد المجلد GGUF يدويًا بعد التنزيل وسيتولى الباقي.
الخيار 2: محطة عمل Linux GPU
لا تحتاج إلى Mac لتشغيل GLM 5.2 محليًا - ولكنك تحتاج إلى قدر كبير من النظام RAM. التقنية الرئيسية في Linux هي MoE تفريغ الخبراء: قم بتحميل الخبراء النشطين (حوالي 40 مليار معلمة) على GPU VRAM واحتفظ ببقية مجموعة الخبراء في النظام RAM، وقم بالتبديل حسب الحاجة.
الحد الأدنى العملي الذي يعمل: 1 × RTX 4090 (24 جيجابايت VRAM) + 256 جيجابايت نظام DDR5 RAM.
تتلاءم المعلمات النشطة ~ 40B في الغالب مع GPU بسعة 24 جيجابايت؛ خبراء النوم الباقون يجلسون في RAM. إنه أبطأ من Mac Studio - ما يقرب من 2-5 رموز مميزة في الثانية - ولكنه يعمل من أجل التطوير وأحمال العمل المجمعة.
خطوات:
1. تثبيت llama.cpp بدعم CUDA:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j**2. قم بتنزيل GGUF ** 2 بت (نفس الأمر المذكور أعلاه).
3. التشغيل باستخدام إلغاء التحميل GPU + CPU:
./build/bin/llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 30 \
--temp 0.7 \
-p "Write a Python function that..."تقوم قيم -ngl المنخفضة بتفريغ طبقات أقل إلى GPU، مع ترك الباقي لـ CPU والنظام RAM. ابدأ عند 30 وقم بالضبط لأعلى حتى تصل إلى VRAM OOM، ثم تراجع بمقدار 5. إذا كان لديك GPU أصغر، فابدأ بالمستوى الأدنى.
الخيار 3: المؤسسة – vLLM على 8×H200
بالنسبة للفرق التي تقوم بتشغيل GLM 5.2 في الإنتاج بدقة كاملة، فإن vLLM أو SGLang هو المسار الموصى به. يتطلب متغير FP8 حوالي 860 جيجابايت من VRAM - يمكن تحقيقه باستخدام 8 × NVIDIA H200 (141 جيجابايت لكل منهما) لإجمالي مساحة رأس تبلغ 1.1 تيرابايت تقريبًا.
pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8يمنحك هذا استدلالًا عالي الجودة وإنتاجية متزامنة عالية ونقطة نهاية OpenAI-compatible على localhost:8000 التي يمكن لأدواتك الحالية الإشارة إليها دون تغييرات.
حساب التكلفة يستحق القيام به قبل الالتزام: 8×H200 عقد مكلفة لامتلاكها أو استئجارها. قارن ذلك مع Z.AI API بسعر ~ 1.40 دولارًا أمريكيًا/1 مليون رمز إدخال وحدد أيهما مناسب لحجم الصوت الخاص بك. بالنسبة لمعظم الفرق، تفوز السحابة API حتى تصبح متطلبات الإنتاجية كبيرة جدًا.
خيار الأجهزة الصفرية
إليك الجزء الصادق: ليس لدى معظم المطورين ذاكرة موحدة تبلغ سعتها 256 جيجابايت أو مجموعة من H200. إذا كنت أنت هذا، فإن أسرع طريق إلى GLM 5.2 هو المتصفح.
يمنحك glm5.app وصولاً مجانيًا إلى GLM 5.2 في متصفحك - بدون تثبيت، ولا مفتاح API، ولا يلزم وجود مساحة تخزين تبلغ 239 جيجابايت. إنه مدعوم بنفس الأوزان المرخصة من MIT، ويبدأ على الفور، ولا يكلفك أي شيء لتجربته.
استخدم الإعداد المحلي عندما تحتاج على وجه التحديد إلى التشغيل بفجوات هوائية، أو ترغب في ضبط الأوزان بشكل دقيق، أو لديك الأجهزة اللازمة لجعلها جديرة بالاهتمام. استخدم glm5.app للتقييم والمساعدة اليومية في البرمجة وأي شيء لا يتطلب خصوصية صارمة على الجهاز.
الأسئلة المتداولة
هل GLM 5.2 مجاني للتشغيل محليًا؟ الأوزان مرخصة من MIT، ويمكن تنزيلها وتشغيلها وتعديلها مجانًا. التكلفة هي الأجهزة: تحتاج إلى ما يقرب من 239 جيجابايت من RAM/VRAM كحد أدنى لكمية 2 بت، مما يحد من الاستدلال المحلي الحقيقي على Macs المتطورة أو محطات العمل المخصصة.
هل يدعم Ollama GLM 5.2 محليًا؟
يسرد Ollama GLM 5.2، ولكن فقط علامة :cloud - التي توجه مطالباتك عبر البنية التحتية API الخاصة بـ Z.AI بدلاً من أجهزتك المحلية. للحصول على استدلال محلي حقيقي، استخدم llama.cpp مع ملفات Unsloth الخاصة بـ GGUF مباشرة.
ما هو الحد الأدنى من الأجهزة لتشغيل GLM 5.2 محليًا؟ الحد الأدنى العملي هو M3 Ultra أو M4 Ultra Mac Studio مع 256 جيجابايت من الذاكرة الموحدة، أو محطة عمل Linux مع 24 جيجابايت GPU ونظام 256 جيجابايت RAM. أقل من ذلك وحتى الكمية 1 بت لن تتناسب مع الذاكرة.
ما مدى سرعة تشغيل GLM 5.2 محليًا؟ على Mac Studio (M4 Ultra) سعة 256 جيجابايت مع GGUF 2 بت، توقع ما يقرب من 4 إلى 9 رموز مميزة في الثانية. في إعداد GPU بسعة 24 جيجابايت + RAM Linux بسعة 256 جيجابايت، توقع 2-5 رموز مميزة في الثانية. يمكن استخدامه في وظائف التطوير والدفعات، وهو ليس مثاليًا للعمل التفاعلي حيث تنتظر كل استجابة.
هل يمكنني توصيل GLM 5.2 محليًا بأدوات OpenAI SDK؟
نعم. يعرض كل من وضع الخادم llama.cpp وLM Studio OpenAI-compatible REST API (عادةً على localhost:11434 أو localhost:1234). يمكن لأي أداة مبنية على OpenAI SDK أن تشير إلى نقطة النهاية هذه من خلال تغيير تكوين سطر واحد.
الخط السفلي
يعد تشغيل GLM 5.2 محليًا أمرًا حقيقيًا، ولكنه يتطلب أجهزة صادقة. العلامة Ollama :cloud عبارة عن برنامج تضمين API، وليس الاستدلال المحلي. للتشغيل الحقيقي على الجهاز، المسار الأكثر سهولة هو Unsloth's GGUF 2 بت مع llama.cpp على 256 جيجابايت Mac Studio أو محطة عمل RAM Linux عالية، مما يوفر 3-9 رموز/ثانية على أفضل الأجهزة الاستهلاكية المتاحة اليوم.
إذا كنت تريد تجربة GLM 5.2 قبل شراء Mac بسعة 256 جيجابايت، فابدأ هنا: جرب GLM 5.2 مجانًا على glm5.app — لا حاجة للتنزيل، ولا مفاتيح، ولا حاجة إلى مساحة تخزين. بمجرد أن تعرف أنه يناسب حالة الاستخدام الخاصة بك، سيكون لديك صورة واضحة عما إذا كان الاستثمار في الأجهزة منطقيًا أم لا. أثناء قيامك بالتقييم، قم بمراجعة كيفية أداء GLM 5.2 وفقًا للمعايير وما تكلفة API وخطط الاشتراك.
مصادر
- unsloth/GLM-5.2-GGUF — متغيرات GGUF الكمية ومتطلبات الذاكرة
- Z.AI — GLM-5.2: مصمم للمهام طويلة المدى (مدونة Hugging Face الرسمية)
- مكتبة Ollama: glm-5.2 (وثائق العلامة السحابية)
تعكس متطلبات الأجهزة وأحجام القياس مواصفات GGUF المنشورة ومعايير المجتمع اعتبارًا من منتصف عام 2026. تحقق من الأرقام الحالية لكل مصدر قبل شراء الأجهزة.


