เมื่อฉันค้นหา "GLM 5.2 Ollama" เป็นครั้งแรก ฉันคาดว่าจะมีบรรทัดเดียว: ollama run glm-5.2 สิ่งที่ฉันพบน่าสนใจกว่า—และตรงไปตรงมามากกว่ามาก มี เป็น ตัวเลือก Ollama สำหรับ GLM 5.2 แต่ไม่ใช่สิ่งที่คนส่วนใหญ่หมายถึงเมื่อพวกเขาพูดว่า "เรียกใช้ในเครื่อง" คู่มือนี้จะแจกแจงรายละเอียดสิ่งที่คุณได้รับจริงจากตัวเลือกการตั้งค่าแต่ละรายการ ฮาร์ดแวร์ที่คุณต้องการจริงๆ และเส้นทางที่เร็วที่สุดไปยัง GLM 5.2 หากคุณไม่มี RAM ขนาด 256 GB
glm-5.2:cloud หมายถึงอะไรจริงๆ
หากคุณไปที่ไลบรารี Ollama และค้นหา GLM 5.2 คุณจะพบมัน—แต่ก็มีประโยชน์ แท็กเดียวที่ใช้ได้คือ :cloud การรัน ollama run glm-5.2:cloud จะกำหนดเส้นทางการแจ้งเตือนของคุณผ่านโครงสร้างพื้นฐานที่ได้รับการจัดการของ Z.AI ไม่ใช่ GPU หรือ CPU ในเครื่องของคุณ เป็นเครื่องห่อ API ที่สะดวกสบายพร้อมหลักสรีรศาสตร์ Ollama ไม่ใช่การอนุมานบนอุปกรณ์
ความแตกต่างดังกล่าวมีความสำคัญ: หากเป้าหมายของคุณคือความเป็นส่วนตัวบนอุปกรณ์ การใช้งานแบบ Air-Gapped หรือการอนุมานโดยไม่มีการเรียกเก็บค่าบริการ API แท็กคลาวด์ Ollama จะไม่ส่งมอบเป้าหมายดังกล่าว สำหรับการอนุมานเฉพาะที่ที่แท้จริง คุณต้องใช้เส้นทางอื่น
คุณสามารถรัน GLM 5.2 ในเครื่องได้จริงหรือไม่?
ใช่—แต่แถบฮาร์ดแวร์นั้นเป็นของจริง ตามข้อมูล การเปิดตัวอย่างเป็นทางการ ของ Z.AI GLM 5.2 เป็นโมเดล Mixture-of-Experts ที่มีความยาวพารามิเตอร์ 744 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ที่ใช้งานอยู่ประมาณ 4 หมื่นล้านรายการต่อโทเค็น แม้จะอยู่ในรูปแบบบีบอัด แต่ก็เป็นหนึ่งในรุ่น Open-Weight ที่ใหญ่ที่สุดที่มีอยู่ และข้อกำหนดของหน่วยความจำก็สะท้อนให้เห็นสิ่งนั้น
ต่อไปนี้เป็นรายละเอียดเชิงปฏิบัติตามระดับการหาปริมาณ โดยอิงจาก Unsloth ตัวแปร GGUF ที่เผยแพร่ของ GGUF:
| การหาปริมาณ | จำเป็นต้องใช้หน่วยความจำ | ฮาร์ดแวร์ขั้นต่ำ |
|---|---|---|
| UD-IQ1_S (ไดนามิก 1 บิต) | ~223GB | หน่วยความจำรวม 256 GB Mac |
| UD-IQ2_M (ไดนามิก 2 บิต) | ~239กิกะไบต์ | 256GB Mac Studio / 1×24GB GPU + 256GB RAM |
| Q4_K_M (4 บิต) | ~376กิกะไบต์ | เวิร์กสเตชัน Multi-GPU หรือ 512 GB RAM |
| FP8 ผ่าน vLLM | 753GB+ | 8×H200 หรือเทียบเท่า |
2 บิต quant (UD-IQ2_M) เป็นจุดที่น่าสนใจสำหรับฮาร์ดแวร์สำหรับผู้บริโภค ซึ่งเป็นตัวเลือกที่เข้าถึงได้มากที่สุดในขณะที่ยังคงประสิทธิภาพการเขียนโค้ดที่แข็งแกร่งไว้ คาดหวังโทเค็นประมาณ 3–9 ต่อวินาที ขึ้นอยู่กับการตั้งค่าของคุณ
ตัวเลือกที่ 1: Mac Studio พร้อม Unified Memory ขนาด 256 GB
หากคุณมี M3 Ultra หรือ M4 Ultra Mac Studio ที่มีหน่วยความจำรวม 192–256 GB นี่เป็นพาธในเครื่องที่สะอาดที่สุดบนฮาร์ดแวร์สำหรับผู้บริโภค หน่วยความจำแบบรวมของ Apple Silicon หมายความว่า CPU และ GPU ของคุณใช้พูลเดียวกัน ดังนั้นคุณจึงสามารถโหลด GGUF 2 บิตได้โดยไม่ต้องแยก GPU-CPU ที่ทำให้การตั้งค่าอื่นๆ ยุ่งยาก
ขั้นตอน:
1. ติดตั้ง llama.cpp (แบ็กเอนด์การอนุมาน):
brew install llama.cppหรือสร้างจากแหล่งที่มาเพื่อการเพิ่มประสิทธิภาพ Metal ล่าสุด:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_METAL=ON && cmake --build build -j2. ดาวน์โหลด GGUF 2 บิตจาก Unsloth (รวม 239 GB - หกส่วน ดาวน์โหลดทั้งหมด):
huggingface-cli download unsloth/GLM-5.2-GGUF \
--include "UD-IQ2_M/*.gguf" \
--local-dir ./glm52-ggufคุณจะต้องมี pip install huggingface_hub และที่เก็บข้อมูล NVMe เพียงพอ การดาวน์โหลดต้องใช้เวลา—เริ่มต้นก่อนที่คุณจะต้องการ
3. เรียกใช้การอนุมาน:
llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 99 \
--temp 0.7 \
-p "Write a Python function that parses a JSON log file..."-ngl 99 ออฟโหลดเลเยอร์ทั้งหมดไปที่ Metal GPU บนหน่วยความจำรวม 256 GB คุณจะเห็นโทเค็นประมาณ 4–9 โทเค็น/วินาทีสำหรับการแจ้งเตือนการเข้ารหัส
ทางเลือก GUI: หากคุณไม่ต้องการใช้ CLI LM Studio จะรวม llama.cpp ไว้ในแอปเดสก์ท็อปที่มีเบราว์เซอร์จำลองภาพและ UI แชทในตัว นำเข้าโฟลเดอร์ GGUF ด้วยตนเองหลังจากดาวน์โหลด และโฟลเดอร์จะจัดการส่วนที่เหลือ
ตัวเลือก 2: Linux GPU เวิร์กสเตชัน
คุณไม่จำเป็นต้องมี Mac เพื่อรัน GLM 5.2 ภายในเครื่อง แต่คุณจำเป็นต้องมีระบบ RAM จำนวนมาก เทคนิคสำคัญบน Linux คือ MoE การถ่ายข้อมูลโดยผู้เชี่ยวชาญ: โหลดผู้เชี่ยวชาญที่ใช้งานอยู่ (~ 40B พารามิเตอร์) ไปยัง GPU VRAM ของคุณ และเก็บกลุ่มผู้เชี่ยวชาญที่เหลือไว้ในระบบ RAM โดยทำการสลับตามความจำเป็น
ขั้นต่ำในทางปฏิบัติที่ใช้งานได้: 1× RTX 4090 (24 GB VRAM) + ระบบ DDR5 256 GB RAM
พารามิเตอร์ที่ใช้งาน ~ 40B ส่วนใหญ่พอดีกับ 24 GB GPU; ผู้เชี่ยวชาญด้านการนอนหลับที่เหลือนั่งอยู่ใน RAM มันช้ากว่า Mac Studio ประมาณ 2–5 โทเค็น/วินาที แต่ใช้ได้กับการพัฒนาและเวิร์กโหลดแบบแบตช์
ขั้นตอน:
1. ติดตั้ง llama.cpp พร้อมรองรับ CUDA:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j2. ดาวน์โหลด GGUF แบบ 2 บิต (คำสั่งเดียวกันกับด้านบน)
3. รันด้วยออฟโหลด GPU + CPU:
./build/bin/llama-cli \
-m ./glm52-gguf/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
-ngl 30 \
--temp 0.7 \
-p "Write a Python function that..."ค่า -ngl ที่ต่ำกว่าจะถ่ายเลเยอร์น้อยลงไปยัง GPU เหลือส่วนที่เหลือสำหรับ CPU และระบบ RAM เริ่มต้นที่ 30 และปรับขึ้นจนกว่าคุณจะกด VRAM OOM จากนั้นถอยกลับ 5 หากคุณมี GPU ที่เล็กกว่า ให้เริ่มต่ำลง
ตัวเลือก 3: องค์กร — vLLM บน 8×H200
สำหรับทีมที่ใช้งาน GLM 5.2 ในการผลิตด้วยความแม่นยำสูงสุด vLLM หรือ SGLang คือเส้นทางที่แนะนำ รุ่น FP8 ต้องการ VRAM ประมาณ 860 GB ซึ่งทำได้ด้วย NVIDIA H200 8× (ตัวละ 141 GB) สำหรับพื้นที่ว่างทั้งหมดประมาณ 1.1 TB
pip install "vllm>=0.23.0"
vllm serve zai-org/GLM-5.2 --dtype fp8 --tensor-parallel-size 8ซึ่งช่วยให้คุณอนุมานคุณภาพเต็มรูปแบบ ปริมาณงานพร้อมกันสูง และตำแหน่งข้อมูล OpenAI-compatible บน localhost:8000 ที่เครื่องมือที่มีอยู่ของคุณสามารถชี้ไปได้โดยไม่ต้องเปลี่ยนแปลง
การคำนวณต้นทุนเป็นสิ่งที่ควรทำก่อนตัดสินใจ: โหนด 8×H200 มีราคาแพงในการเป็นเจ้าของหรือเช่า เปรียบเทียบกับ Z.AI API ที่ ~$1.40/1M โทเค็นอินพุต และตัดสินใจว่าอันไหนเหมาะสมกับปริมาณของคุณ สำหรับทีมส่วนใหญ่ ระบบคลาวด์ API จะชนะจนกว่าความต้องการปริมาณการประมวลผลจะมีขนาดใหญ่มาก
ตัวเลือก Zero-Hardware
ส่วนที่ตรงไปตรงมา: นักพัฒนาส่วนใหญ่ไม่มีหน่วยความจำรวม 256 GB หรือชั้นวาง H200 หากเป็นเช่นนั้น เส้นทางที่เร็วที่สุดในการไปยัง GLM 5.2 ก็คือเบราว์เซอร์
glm5.app ให้คุณเข้าถึง GLM 5.2 ได้ฟรีในเบราว์เซอร์ของคุณ โดยไม่ต้องติดตั้ง ไม่ต้องใช้คีย์ API ไม่จำเป็นต้องใช้พื้นที่เก็บข้อมูล 239 GB ได้รับการสนับสนุนโดยตุ้มน้ำหนักลิขสิทธิ์ MIT แบบเดียวกัน เริ่มต้นได้ทันที และไม่มีค่าใช้จ่ายในการลอง
ใช้การตั้งค่าเฉพาะที่เมื่อคุณต้องการการทำงานแบบมีช่องว่างอากาศเป็นพิเศษ ต้องการปรับแต่งน้ำหนัก หรือมีฮาร์ดแวร์ที่คุ้มค่า ใช้ glm5.app สำหรับการประเมิน ความช่วยเหลือในการเขียนโค้ดทุกวัน และทุกสิ่งที่ไม่ต้องการความเป็นส่วนตัวบนอุปกรณ์ที่เข้มงวด
คำถามที่พบบ่อย
GLM 5.2 สามารถรันในเครื่องได้ฟรีหรือไม่ ตุ้มน้ำหนักได้รับใบอนุญาต MIT ซึ่งสามารถดาวน์โหลด เรียกใช้ และแก้ไขได้ฟรี ค่าใช้จ่ายคือฮาร์ดแวร์: คุณต้องมี RAM/VRAM ขั้นต่ำประมาณ 239 GB สำหรับปริมาณ 2 บิต ซึ่งจะจำกัดการอนุมานเฉพาะที่ที่แท้จริงสำหรับ Mac ระดับไฮเอนด์หรือเวิร์กสเตชันแบบกำหนดเอง
Ollama รองรับ GLM 5.2 ภายในเครื่องหรือไม่
Ollama แสดงรายการ GLM 5.2 แต่มีเพียงแท็ก :cloud ซึ่งกำหนดเส้นทางพร้อมท์ของคุณผ่านโครงสร้างพื้นฐาน API ของ Z.AI แทนที่จะเป็นฮาร์ดแวร์ในเครื่องของคุณ สำหรับการอนุมานเฉพาะที่ที่แท้จริง ให้ใช้ llama.cpp กับไฟล์ GGUF ของ Unsloth โดยตรง
ฮาร์ดแวร์ขั้นต่ำในการรัน GLM 5.2 ภายในเครื่องคือเท่าใด ขั้นต่ำในทางปฏิบัติคือ M3 Ultra หรือ M4 Ultra Mac Studio ที่มีหน่วยความจำรวม 256 GB หรือเวิร์กสเตชัน Linux ที่มี GPU 24 GB และระบบ RAM 256 GB น้อยกว่านั้นและแม้แต่ควอนตัม 1 บิตก็ไม่พอดีกับหน่วยความจำ
GLM 5.2 ทำงานเร็วแค่ไหนในเครื่อง? บน Mac Studio ขนาด 256 GB (M4 Ultra) ที่มี GGUF 2 บิต คาดว่าจะได้รับโทเค็นประมาณ 4–9 โทเค็นต่อวินาที ในการตั้งค่า GPU ขนาด 24 GB + 256 GB RAM Linux คาดว่าจะได้รับโทเค็น 2–5 ชิ้น/วินาที ใช้งานได้สำหรับการพัฒนาและงานแบตช์ ไม่เหมาะสำหรับงานแบบโต้ตอบที่คุณต้องรอทุกคำตอบ
ฉันสามารถเชื่อมต่อ GLM 5.2 ภายในเครื่องกับเครื่องมือ OpenAI SDK ได้หรือไม่
ใช่. ทั้งโหมดเซิร์ฟเวอร์ของ llama.cpp และ LM Studio เปิดเผย OpenAI-compatible REST API (โดยทั่วไปบน localhost:11434 หรือ localhost:1234) เครื่องมือใดๆ ที่สร้างขึ้นบน OpenAI SDK สามารถชี้ไปที่ตำแหน่งข้อมูลนั้นได้ด้วยการเปลี่ยนแปลงการกำหนดค่าบรรทัดเดียว
บรรทัดล่าง
การใช้งาน GLM 5.2 ภายในเครื่องนั้นมีอยู่จริง แต่ต้องใช้ฮาร์ดแวร์ที่ตรงไปตรงมา แท็ก Ollama :cloud เป็น wrapper API ไม่ใช่การอนุมานเฉพาะที่ สำหรับการทำงานบนอุปกรณ์อย่างแท้จริง เส้นทางที่เข้าถึงได้มากที่สุดคือ GGUF 2 บิตของ Unsloth พร้อมด้วย llama.cpp บน Mac Studio ขนาด 256 GB หรือเวิร์กสเตชัน RAM Linux ระดับสูง โดยส่งมอบโทเค็น 3–9 โทเค็น/วินาทีบนฮาร์ดแวร์สำหรับผู้บริโภคที่ดีที่สุดที่มีอยู่ในปัจจุบัน
หากคุณต้องการลองใช้ GLM 5.2 ก่อนซื้อ Mac ขนาด 256 GB เริ่มต้นที่: ลอง GLM 5.2 ฟรีบน glm5.app—ไม่ต้องดาวน์โหลด ไม่ต้องใช้คีย์ ไม่ต้องใช้พื้นที่จัดเก็บข้อมูล เมื่อคุณรู้ว่ามันเหมาะกับกรณีการใช้งานของคุณ คุณจะมีภาพที่ชัดเจนว่าการลงทุนด้านฮาร์ดแวร์นั้นสมเหตุสมผลหรือไม่ ขณะที่คุณกำลังประเมิน ลองดู GLM 5.2 ทำงานอย่างไรกับการวัดประสิทธิภาพ และ API และแผนการสมัครสมาชิกราคาเท่าไหร่
แหล่งที่มา
- unsloth/GLM-5.2-GGUF - ตัวแปร GGUF เชิงปริมาณและข้อกำหนดหน่วยความจำ
- Z.AI — GLM-5.2: สร้างขึ้นสำหรับงาน Long-Horizon (บล็อก Hugging Face อย่างเป็นทางการ)
- ไลบรารี Ollama: glm-5.2 (เอกสารประกอบแท็กคลาวด์)
ข้อกำหนดด้านฮาร์ดแวร์และขนาดการกำหนดปริมาณสะท้อนถึงข้อกำหนด GGUF ที่เผยแพร่ของ GGUF และการวัดประสิทธิภาพชุมชน ณ กลางปี 2569 ตรวจสอบตัวเลขปัจจุบันของแต่ละแหล่งก่อนที่จะซื้อฮาร์ดแวร์


