เบนช์มาร์ก GLM 5.2: ประสิทธิภาพจริงเป็นอย่างไร
Jun 24, 2026

เบนช์มาร์ก GLM 5.2: ประสิทธิภาพจริงเป็นอย่างไร

ถอดรหัสเบนช์มาร์ก GLM 5.2: ได้ 62.1 บน SWE-bench Pro, 74.4 บน FrontierSWE เอาชนะ GPT-5.5 และไล่ตาม Opus 4.8 ด้วยราคาเพียงเศษเสี้ยว มาดูความหมายของคะแนนเหล่านี้

เมื่อก่อนผมเลื่อนผ่านกราฟเบนช์มาร์กไปเลย ทุกครั้งที่มีโมเดลใหม่เปิดตัว ก็จะมาพร้อมกำแพงกราฟแท่งที่โมเดลใหม่ชนะแบบพอดิบพอดี ผมเลยเรียนรู้ที่จะไม่สนใจมัน จนกระทั่ง GLM 5.2 ออกมา ฟีดทั้งหน้าของผมเริ่มตะโกนว่ามัน "เอาชนะ GPT-5.5" และผมจำเป็นต้องรู้ว่านั่นเป็นเรื่องจริงหรือแค่เสียงอึกทึกในวันเปิดตัว ผมจึงดึงตัวเลขจริงออกมา—จากการเปิดตัวอย่างเป็นทางการของ Z.AI, ลีดเดอร์บอร์ดจากบุคคลที่สาม และรีวิวอิสระ—แล้วเรียงเทียบเคียงกันทีละคู่

นี่คือคำตอบตรง ๆ: GLM 5.2 คือโมเดลโอเพนเวตที่แข็งแกร่งที่สุดบนเบนช์มาร์กด้านการเขียนโค้ดในตอนนี้ มันเอาชนะ GPT-5.5 ในเกือบทุกรายการ ตามหลัง Claude Opus 4.8 เพียงหนึ่งหรือสองคะแนนในงานโค้ดระยะยาว และทำได้ด้วยราคาที่เป็นเพียงเศษเสี้ยว ด้านล่างคือสิ่งที่เบนช์มาร์กแต่ละตัววัดจริง ๆ จุดที่ GLM 5.2 ชนะ จุดที่มันยังแพ้ และความหมายของมันต่องานที่คุณจะมอบให้มันจริง ๆ

ภาพรวมเบนช์มาร์ก GLM 5.2

ถ้าจะอ่านตารางเดียว ให้อ่านตารางนี้ นี่คือชุดทดสอบด้านการเขียนโค้ดแบบเอเจนต์ที่ทุกคนจับตามอง พร้อมคะแนนหลักที่รายงานตอนเปิดตัว:

เบนช์มาร์กGLM 5.2Claude Opus 4.8GPT-5.5
SWE-bench Pro62.169.258.6
FrontierSWE74.475.172.6
Terminal-Bench 2.181.085.084.0
MCP-Atlas (การใช้เครื่องมือ)76.877.875.3
ราคา API อินพุต /MTok~$1.40~$5.00~$5.00
โอเพนเวตใช่ (MIT)ไม่ไม่

ตัวเลขสะท้อนการเปิดตัวอย่างเป็นทางการของ Z.AI และลีดเดอร์บอร์ดจากบุคคลที่สาม ณ เดือนมิถุนายน 2026 เบนช์มาร์กเปลี่ยนแปลงทุกสัปดาห์และระเบียบวิธีก็แตกต่างกัน—โปรดตรวจสอบตัวเลขล่าสุดบนหน้าของแต่ละผู้ให้บริการก่อนนำไปอ้างอิง

รูปแบบนี้เห็นได้ชัดทันที: GLM 5.2 อยู่ เหนือ GPT-5.5 และ ต่ำกว่า Opus 4.8 เพียงเล็กน้อย บนชุดทดสอบที่สำคัญต่อการเขียนโค้ดจริง—ทั้งที่เป็นโอเพนเวตและถูกกว่ามาก ทีนี้มาเจาะลึกว่าอะไรอยู่เบื้องหลังแต่ละแถวกัน

เบนช์มาร์กการเขียนโค้ด: เอาชนะ GPT-5.5 ไล่ตาม Opus

สองคะแนนที่คนอ้างถึงมากที่สุดคือ SWE-bench Pro (โมเดลแก้ปัญหา GitHub issue จริงได้ไหม?) และ Terminal-Bench 2.1 (มันทำงานบน shell จริงเพื่อทำงานให้เสร็จได้ไหม?)

  • SWE-bench Pro: 62.1 นั่นเฉือนเอาชนะ GPT-5.5 (58.6) และที่บ่งบอกชัดกว่าคือมันก้าวกระโดดเหนือรุ่นก่อนหน้าของตัวเองอย่าง GLM 5.1 (58.4) Opus 4.8 ยังนำในตัวเลขดิบตรงนี้ แต่ GLM 5.2 เป็นโมเดลโอเพนตัวแรกที่เข้ามาอยู่ในระยะประชิด
  • Terminal-Bench 2.1: 81.0 นี่คือผลลัพธ์ที่ทำให้ผมประหลาดใจจริง ๆ GLM 5.1 ได้ราว 62 บนการทดสอบเดียวกัน ส่วน 5.2 พุ่งขึ้นไป 81.0 ตามหลัง Opus 4.8 (85.0) และ GPT-5.5 (84.0) เพียงไม่กี่คะแนน การก้าวกระโดดเกือบ 20 คะแนนระหว่างรุ่นในงานเทอร์มินัลแบบเอเจนต์ คือเรื่องราวที่ใหญ่ที่สุดในบรรดาตัวเลขเหล่านี้

สิ่งที่ได้สำหรับการเขียนโค้ดในชีวิตประจำวัน: สำหรับงานแบบ "แก้ issue นี้ รันเทสต์ แก้คำสั่ง shell" ที่เติมเต็มสปรินต์จริง ๆ ตอนนี้ GLM 5.2 เล่นอยู่ในลีกเดียวกับโมเดลแนวหน้าแบบปิดแล้ว

เบนช์มาร์กระยะยาว: จุดที่ช่องว่างปรากฏ

นี่คือส่วนตรงไปตรงมาที่โพสต์เปิดตัวส่วนใหญ่มักพูดถึงแบบผ่าน ๆ ยิ่งงานยาวและยากขึ้นเท่าไร แนวหน้าแบบปิดก็ยิ่งทิ้งห่าง—และตัวเลขของ GLM 5.2 ก็แสดงให้เห็นเช่นนั้น

เบนช์มาร์กGLM 5.2Claude Opus 4.8GPT-5.5
FrontierSWE74.475.172.6
PostTrainBench34.337.228.4
SWE-Marathon13.026.012.0

บน FrontierSWE ซึ่งเป็นการเขียนโค้ดระยะยาวที่สมจริง GLM 5.2 (74.4) จบลงแบบเกือบเสมอกับ Opus 4.8 (75.1) และทิ้ง GPT-5.5—น่าประทับใจอย่างแท้จริง บน PostTrainBench มันรั้งอันดับสองได้ และนำ GPT-5.5 อีกครั้ง แต่ดู SWE-Marathon ซึ่งเป็นงานวิศวกรรมหนักหลายชั่วโมง: Opus 4.8 (26.0) เกือบเป็นสองเท่าของ GLM 5.2 (13.0) นั่นคือ "10% ที่ยากที่สุด" ที่ปรากฏในข้อมูล—เมื่อภารกิจยืดยาวหลายชั่วโมงและหลายสิบขั้นตอน โมเดลปิดระดับพรีเมียมที่เน้นการให้เหตุผลยังคงได้เปรียบอย่างแท้จริง

ผมเห็นสิ่งเดียวกันตอนทดสอบทั้งสองโมเดลแบบประจันหน้าบน pull request จริง 40 รายการ: GLM 5.2 ทัดเทียม Opus ในงานประจำวัน และตามหลังเฉพาะปัญหาที่ยุ่งยากและยาวที่สุดเท่านั้น ถ้าคุณอยากดูรายละเอียดนี้ ผมเขียนไว้ที่นี่: GLM 5.2 ปะทะ Claude Opus 4.8: เทียบการเขียนโค้ดแบบจัดเต็ม

การใช้เครื่องมือ เอเจนต์ และการให้เหตุผล

การเขียนโค้ดไม่ใช่ทั้งหมดของเรื่องราว—เวิร์กโฟลว์ของเอเจนต์อยู่รอดหรือล่มสลายขึ้นอยู่กับการเรียกใช้เครื่องมือ และบางงานต้องการการให้เหตุผลล้วน ๆ

  • MCP-Atlas: 76.8 บนการประเมินการใช้เครื่องมือนี้ GLM 5.2 ทำคะแนนเหนือ GPT-5.5 (75.3) และอยู่ต่ำกว่า Opus 4.8 (77.8) เพียงนิดเดียว สำหรับลูปของเอเจนต์ การเรียกฟังก์ชันที่เชื่อถือได้สำคัญกว่าคะแนนหนึ่งแต้มบนลีดเดอร์บอร์ด และนี่ใกล้พอที่จะถือว่าเสมอกัน
  • Tool-Decathlon: 48.2 นี่คืออีกหนึ่งจุดที่แพ้แบบตรงไปตรงมา บนเบนช์มาร์กเครื่องมือที่ยากและกว้างกว่านี้ ทั้ง Opus 4.8 (59.9) และ GPT-5.5 (55.6) ต่างทิ้งห่างอย่างชัดเจน การประสานเครื่องมือหลายตัวที่ซับซ้อนยังคงเป็นจุดอ่อน
  • การให้เหตุผล: บน AIME 2026 (คณิตศาสตร์แข่งขัน) GLM 5.2 ทำได้ 99.2 เฉือนเหนือ GPT-5.5 (98.3) บน GPQA-Diamond (วิทยาศาสตร์ระดับบัณฑิตศึกษา) มันได้ 91.2 ตามหลัง 93.6 ที่ทั้ง Opus และ GPT-5.5 ทำได้ แปลความได้ว่า: มันยอดเยี่ยมในคณิตศาสตร์ที่มีโครงสร้าง แต่ตามหลังหนึ่งก้าวในคำถามความรู้ที่ยากที่สุด

มงกุฎโอเพนเวต

ถอยออกมาจากการทดสอบรายตัว แล้วมีข้อเท็จจริงหนึ่งที่ตั้งตระหง่าน: GLM 5.2 คือ โมเดลโอเพนเวตชั้นนำ บน Artificial Analysis Intelligence Index อิสระ (ได้ 51 บน v4.1) นำหน้าโมเดลโอเพนอื่น ๆ อย่าง MiniMax-M3, DeepSeek V4 Pro และ Kimi K2.6 นอกจากนี้ยังคว้าอันดับหนึ่งในหมวดโค้ดของ Design Arena และติดอันดับท็อปไม่กี่ตัวจากทุกโมเดล—ทั้งโอเพนและปิด—บนลีดเดอร์บอร์ดรวมอย่าง BenchLM

ไม่มีโมเดลอื่นใดที่คุณดาวน์โหลดและโฮสต์เองได้แล้วเข้าใกล้แนวหน้าแบบปิดได้ขนาดนี้ นั่นคือพาดหัวที่เบนช์มาร์กเหล่านี้กำลังบอกจริง ๆ

มุมต้นทุน: ลีกเดียวกัน ราคาเพียงเศษเสี้ยว

เบนช์มาร์กไม่ต้องคำนึงถึงงบประมาณ แต่ทีมของคุณต้อง—และนี่คือจุดที่ GLM 5.2 เลิกเป็นแค่เรื่องน่าสนใจ และกลายเป็นการตัดสินใจ ราคา API อินพุตของมันอยู่ที่ราว 1.40 ดอลลาร์ต่อล้านโทเคน เทียบกับราว 5.00 ดอลลาร์ สำหรับทั้ง Opus 4.8 และ GPT-5.5 VentureBeat ประเมินช่องว่างแบบรวมทั้งหมด โดยผสมอินพุตและเอาต์พุต ไว้ที่ราวหนึ่งในหกของต้นทุน GPT-5.5

วางมันเทียบกับคะแนน: คุณได้ประสิทธิภาพที่ห่างจากแนวหน้าเพียงหนึ่งหรือสองคะแนนในงานเขียนโค้ดส่วนใหญ่ ด้วยราคาเพียงหนึ่งในสามถึงหนึ่งในหก นั่นคืออัตราส่วนที่ทำให้มงกุฎโอเพนเวตเป็นมากกว่าแค่ถ้วยรางวัล

เบนช์มาร์กเหล่านี้มีความหมายอย่างไรต่องานของคุณ

คะแนนเป็นนามธรรม นี่คือวิธีที่ผมจะแปลมันให้เป็นการตัดสินใจกำหนดเส้นทางงาน:

  1. การเขียนโค้ดในชีวิตประจำวัน (90%)—issue, การรีแฟกเตอร์, เทสต์, โค้ดเชื่อมต่อ, งานเทอร์มินัล ตัวเลข SWE-bench Pro, Terminal-Bench และ FrontierSWE ของ GLM 5.2 บอกว่ามันจะตามทันแนวหน้า ใช้มันเป็นค่าเริ่มต้น
  2. งานมาราธอน (10% ที่ยาก)—งานวิศวกรรมหลายชั่วโมง หลายขั้นตอน ที่ SWE-Marathon และ Tool-Decathlon เผยให้เห็นช่องว่าง เก็บโมเดลปิดระดับพรีเมียมไว้สแตนด์บายสำหรับงานเหล่านี้
  3. ไปป์ไลน์ที่อ่อนไหวต่อต้นทุนหรือปริมาณสูง—อัตราส่วนราคาทำให้ GLM 5.2 เป็นค่าเริ่มต้นที่ชัดเจน โดยยกระดับขึ้นเฉพาะกรณียากที่พบไม่บ่อยเท่านั้น

สิ่งเดียวที่ไม่มีเบนช์มาร์กใดจับได้คือความรู้สึกของโมเดลเมื่อใช้กับโค้ดของคุณ คะแนนคือค่าเฉลี่ยบนชุดทดสอบของคนอื่น ส่วนรีโพ พรอมต์ และเคสมุมเฉพาะของคุณคือสิ่งที่คุณต้องส่งมอบจริง ๆ

วิธีที่เร็วที่สุดในการทดสอบ GLM 5.2 ด้วยตัวเอง

การอ่านลีดเดอร์บอร์ดเป็นเรื่องหนึ่ง—การได้ดูโมเดลจัดการกับงานของคุณเองเป็นอีกเรื่องหนึ่ง ปัญหาของโมเดลโอเพนเวตคือวิธี "ที่ถูกต้อง" ในการรันมักหมายถึงต้องดาวน์โหลดเวต หรือต่อ API key และคนส่วนใหญ่ก็สะดุดอยู่ตรงนั้นเลย

คุณข้ามทั้งหมดนั้นได้ glm5.app ให้คุณแชตกับ GLM 5.2 ได้ตรงในเบราว์เซอร์—ไม่ต้องติดตั้ง ไม่ต้องใช้คีย์ ไม่ต้องตั้งค่า วางทิกเก็ตจริงจากแบ็กล็อกของคุณ ดูว่ามันเขียนโค้ดและวางแผนอย่างไร แล้วตัดสินคุณภาพการเขียนโค้ดในชีวิตประจำวันด้วยตัวคุณเอง แทนที่จะเชื่อกราฟ

ถ้าคุณอยากสัมผัสว่า GLM 5.2 อยู่ตรงไหนเมื่อเทียบกับแนวหน้า นั่นคือเส้นทางที่เร็วที่สุด: ลองใช้ GLM 5.2 ฟรีที่ glm5.app และให้งานของคุณเองเป็นผู้ตัดสิน

คำถามที่พบบ่อย

GLM 5.2 ดีกว่า GPT-5.5 บนเบนช์มาร์กไหม? บนชุดทดสอบการเขียนโค้ดและระยะยาวส่วนใหญ่ ใช่—มันนำ GPT-5.5 บน SWE-bench Pro (62.1 ต่อ 58.6), FrontierSWE (74.4 ต่อ 72.6) และ MCP-Atlas ทั้งที่ราคาถูกกว่ามาก

GLM 5.2 ดีกว่า Claude Opus 4.8 ไหม? ไม่ ถ้าวัดด้วยคะแนนดิบ Opus 4.8 ยังเฉือนนำในเบนช์มาร์กส่วนใหญ่ และทิ้งห่างอย่างชัดเจนในงานหลายชั่วโมงที่ยากที่สุด (SWE-Marathon, Tool-Decathlon) GLM 5.2 ใกล้พอจนช่องว่างแทบไม่ปรากฏในการเขียนโค้ดประจำวัน—ด้วยราคาเพียงเศษเสี้ยว

คะแนน SWE-bench Pro ของ GLM 5.2 เท่าไร? 62.1 เป็นโมเดลโอเพนเวตตัวแรกที่เข้าใกล้แนวหน้าแบบปิดได้อย่างแท้จริง และก้าวกระโดดชัดเจนเหนือ 58.4 ของ GLM 5.1

ตัวเลขเบนช์มาร์ก GLM 5.2 เหล่านี้เชื่อถือได้ไหม? มันมาจากการเปิดตัวอย่างเป็นทางการของ Z.AI และลีดเดอร์บอร์ดอิสระ แต่เบนช์มาร์กเปลี่ยนแปลงเร็วและวิธีการก็ต่างกัน ให้มองว่าเป็นภาพรวมชั่วขณะ และตรวจสอบตัวเลขล่าสุดบนหน้าของแต่ละผู้ให้บริการ

GLM 5.2 อยู่อันดับไหนในบรรดาโมเดลโอเพน? อันดับหนึ่ง มันครองอันดับสูงสุดของ Artificial Analysis Intelligence Index สำหรับโมเดลโอเพนเวต และนำในหมวดโค้ดของ Design Arena

ผมจะทดสอบ GLM 5.2 โดยไม่ต้องตั้งค่าอะไรเลยได้อย่างไร? แชตกับมันฟรีในเบราว์เซอร์ที่ glm5.app—ไม่ต้องใช้ API key ไม่ต้องติดตั้ง ไม่มีอะไรให้ดาวน์โหลด

บทสรุป

แล้ว GLM 5.2 ทำงานจริงได้ดีแค่ไหน? มันคือโมเดลโอเพนเวตที่ปิดช่องว่างได้สำเร็จในที่สุด: นำหน้า GPT-5.5 บนเบนช์มาร์กการเขียนโค้ดส่วนใหญ่ ห่างจาก Claude Opus 4.8 เพียงหนึ่งหรือสองคะแนนในงานระยะยาว และตามหลังอย่างชัดเจนเฉพาะในงานหลายชั่วโมงที่ยากที่สุดเท่านั้น—ทั้งหมดนี้ด้วยราคาเพียงเศษเสี้ยว สำหรับงานที่เติมเต็มวันทำงานของนักพัฒนาส่วนใหญ่ คะแนนบอกว่ามันเป็นค่าเริ่มต้นระดับแนวหน้าที่คุณยังรันในแบบของตัวเองได้ด้วย

แต่เบนช์มาร์กคือค่าเฉลี่ยบนงานของคนอื่น คะแนนเดียวที่สำคัญคือมันจัดการงานของคุณได้อย่างไร—ดังนั้นลองรันพรอมต์ของคุณเองผ่านมันดู ไม่ต้องใช้คีย์ ไม่ต้องตั้งค่า ตรงนี้เลย: ลองใช้ GLM 5.2 ฟรีบน glm5.app

เริ่มใช้งาน GLM 5 วันนี้

ทดลองใช้ GLM 5 ฟรี — การใช้เหตุผล เขียนโค้ด เอเจนต์ และสร้างภาพในแพลตฟอร์มเดียว