Dulu saya selalu menggulir melewati grafik benchmark. Setiap peluncuran model datang dengan tembok grafik batang di mana model baru kebetulan selalu menang, jadi saya belajar untuk mengabaikannya. Lalu GLM 5.2 muncul, seluruh feed saya mulai berteriak bahwa ia "mengalahkan GPT-5.5," dan saya harus tahu apakah itu nyata atau sekadar kebisingan hari peluncuran. Maka saya tarik angka-angka sebenarnya—dari rilis resmi Z.AI, papan peringkat pihak ketiga, dan ulasan independen—lalu menjajarkannya berdampingan.
Inilah pembacaan jujurnya: GLM 5.2 adalah model open-weight terkuat pada benchmark coding saat ini. Ia mengalahkan GPT-5.5 di sebagian besar benchmark, hanya tertinggal satu atau dua poin dari Claude Opus 4.8 pada coding berhorizon panjang, dan melakukannya dengan harga yang kira-kira sepersekian. Di bawah ini adalah apa yang sebenarnya diukur tiap benchmark, di mana GLM 5.2 menang, di mana ia masih kalah, dan apa artinya bagi pekerjaan yang akan benar-benar Anda serahkan kepadanya.
Sekilas Benchmark GLM 5.2
Jika Anda membaca satu tabel saja, baca yang ini. Inilah suite coding agentik yang sedang diamati semua orang, dengan skor utama yang dilaporkan saat peluncuran:
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 |
| MCP-Atlas (penggunaan alat) | 76.8 | 77.8 | 75.3 |
| Harga input API /MTok | ~$1.40 | ~$5.00 | ~$5.00 |
| Open weights | Ya (MIT) | Tidak | Tidak |
Angka mencerminkan rilis resmi Z.AI dan papan peringkat pihak ketiga per Juni 2026. Benchmark berubah tiap minggu dan metodologinya berbeda-beda—verifikasi angka terkini di halaman tiap vendor sebelum Anda mengutipnya.
Polanya langsung terlihat: GLM 5.2 berada di atas GPT-5.5 dan sedikit di bawah Opus 4.8 pada suite yang penting untuk coding nyata—sekaligus bersifat open-weight dan jauh lebih murah. Sekarang mari kita bedah apa yang ada di balik tiap baris.
Benchmark Coding: Mengalahkan GPT-5.5, Mengejar Opus
Dua skor yang paling sering dikutip orang adalah SWE-bench Pro (bisakah model menyelesaikan isu GitHub nyata?) dan Terminal-Bench 2.1 (bisakah ia mengoperasikan shell nyata untuk menuntaskan pekerjaan?).
- SWE-bench Pro: 62.1. Itu sedikit melampaui GPT-5.5 (58.6) dan, yang lebih menggambarkan, melompat jauh dari pendahulunya sendiri, GLM 5.1 (58.4). Opus 4.8 masih memimpin di angka mentah ini, tetapi GLM 5.2 adalah model terbuka pertama yang berada dalam jarak tembak.
- Terminal-Bench 2.1: 81.0. Inilah hasil yang benar-benar mengejutkan saya. GLM 5.1 mencetak sekitar 62 pada tes yang sama; 5.2 melonjak ke 81.0, tertinggal beberapa poin di belakang Opus 4.8 (85.0) dan GPT-5.5 (84.0). Lompatan generasional hampir 20 poin pada pekerjaan terminal agentik adalah cerita terbesar di antara angka-angka ini.
Kesimpulan untuk coding sehari-hari: pada jenis pekerjaan "selesaikan isu ini, jalankan tes, perbaiki perintah shell" yang memenuhi sprint nyata, GLM 5.2 kini bermain di liga yang sama dengan model frontier tertutup.
Benchmark Berhorizon Panjang: Tempat Kesenjangan Terlihat
Inilah bagian jujur yang dilewati sekilas oleh sebagian besar postingan peluncuran. Semakin panjang dan sulit tugasnya, semakin frontier tertutup menarik diri ke depan—dan angka GLM 5.2 menunjukkannya.
| Benchmark | GLM 5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| FrontierSWE | 74.4 | 75.1 | 72.6 |
| PostTrainBench | 34.3 | 37.2 | 28.4 |
| SWE-Marathon | 13.0 | 26.0 | 12.0 |
Pada FrontierSWE, coding berhorizon panjang yang realistis, GLM 5.2 (74.4) berakhir nyaris seri dengan Opus 4.8 (75.1) dan melewati GPT-5.5—sungguh mengesankan. Pada PostTrainBench ia bertahan di posisi kedua, lagi-lagi di depan GPT-5.5. Tapi lihat SWE-Marathon, gilingan rekayasa berjam-jam: Opus 4.8 (26.0) kira-kira dua kali lipat GLM 5.2 (13.0). Itulah "10% tersulit" yang muncul dalam data—ketika sebuah tugas membentang berjam-jam dan puluhan langkah, penalar tertutup premium masih punya keunggulan nyata.
Saya melihat hal yang sama saat menguji kedua model secara langsung pada 40 pull request nyata: GLM 5.2 menyamai Opus pada pekerjaan sehari-hari dan hanya tertinggal pada masalah yang paling rumit dan paling panjang. Jika Anda ingin rinciannya, saya menuliskannya di sini: GLM 5.2 vs Claude Opus 4.8: Coding, Dibandingkan.
Penggunaan Alat, Agen & Penalaran
Coding bukanlah keseluruhan cerita—alur kerja agen hidup atau mati bergantung pada pemanggilan alat, dan beberapa tugas butuh penalaran murni.
- MCP-Atlas: 76.8. Pada evaluasi penggunaan alat ini, GLM 5.2 mengungguli GPT-5.5 (75.3) dan berada sedikit di bawah Opus 4.8 (77.8). Untuk loop agen, pemanggilan fungsi yang andal lebih penting daripada satu poin papan peringkat, dan ini cukup dekat untuk disebut imbang.
- Tool-Decathlon: 48.2. Inilah kekalahan jujur lainnya. Pada benchmark alat yang lebih sulit dan lebih luas ini, baik Opus 4.8 (59.9) maupun GPT-5.5 (55.6) sama-sama jelas memimpin. Orkestrasi multi-alat yang kompleks masih menjadi titik lemah.
- Penalaran: Pada AIME 2026 (matematika kompetisi), GLM 5.2 mencetak 99.2, sedikit melampaui GPT-5.5 (98.3). Pada GPQA-Diamond (sains tingkat pascasarjana) ia mencetak 91.2, tertinggal dari 93.6 yang dicapai Opus maupun GPT-5.5. Terjemahannya: ia unggul dalam matematika terstruktur, tertinggal selangkah pada pertanyaan pengetahuan yang paling sulit.
Mahkota Open-Weight
Mundur dari tes-tes individual, satu fakta tetap berdiri: GLM 5.2 adalah model open-weight terdepan pada Artificial Analysis Intelligence Index independen (51 pada v4.1), di depan model terbuka lain seperti MiniMax-M3, DeepSeek V4 Pro, dan Kimi K2.6. Ia juga merebut posisi teratas di kategori kode Design Arena dan menempati segelintir teratas dari semua model—terbuka maupun tertutup—pada papan peringkat agregat seperti BenchLM.
Tidak ada model lain yang bisa Anda unduh dan hosting sendiri yang sedekat ini dengan frontier tertutup. Itulah pesan utama yang sebenarnya disampaikan benchmark-benchmark ini.
Sisi Biaya: Liga yang Sama, Harga Sepersekian
Benchmark tidak berjalan dengan anggaran, tetapi tim Anda iya—dan di sinilah GLM 5.2 berhenti sekadar menarik dan mulai menjadi sebuah keputusan. Harga input API-nya jatuh di sekitar $1.40 per juta token dibandingkan kira-kira $5.00 untuk Opus 4.8 maupun GPT-5.5. VentureBeat menaksir selisih keseluruhan, dengan memadukan input dan output, sekitar seperenam dari biaya GPT-5.5.
Sandingkan itu dengan skornya: Anda mendapatkan performa dalam jarak satu atau dua poin dari frontier pada sebagian besar pekerjaan coding, dengan harga sekitar sepertiga hingga seperenam. Itulah rasio yang membuat mahkota open-weight lebih dari sekadar piala.
Apa Arti Sebenarnya Benchmark Ini bagi Pekerjaan Anda
Skor adalah abstraksi. Inilah cara saya menerjemahkannya menjadi keputusan perutean:
- Coding sehari-hari (90%)—isu, refactor, tes, kode perekat, pekerjaan terminal. Angka SWE-bench Pro, Terminal-Bench, dan FrontierSWE dari GLM 5.2 berkata ia akan mengimbangi frontier. Jadikan ia pilihan default.
- Tugas maraton (10% tersulit)—rekayasa berjam-jam, banyak langkah, tempat SWE-Marathon dan Tool-Decathlon mengungkap kesenjangan. Siapkan model tertutup premium sebagai cadangan untuk ini.
- Pipeline sensitif biaya atau bervolume tinggi—rasio harga menjadikan GLM 5.2 default yang jelas, dengan eskalasi hanya pada kasus sulit yang jarang.
Satu hal yang tak ditangkap benchmark mana pun adalah bagaimana rasanya sebuah model pada kode Anda. Skor adalah rata-rata atas kumpulan tes orang lain; repo Anda, prompt Anda, dan kasus tepi Anda adalah apa yang benar-benar Anda kirimkan.
Cara Tercepat Menguji GLM 5.2 Sendiri
Membaca papan peringkat itu satu hal—menyaksikan sebuah model menangani tugas Anda sendiri adalah hal lain. Masalah dengan model open-weight adalah cara "yang benar" untuk menjalankannya biasanya berarti mengunduh bobot atau menyambungkan API key, dan kebanyakan orang langsung mandek di situ.
Anda bisa melewati semua itu. glm5.app memungkinkan Anda mengobrol dengan GLM 5.2 langsung di browser—tanpa instalasi, tanpa kunci, tanpa pengaturan. Tempelkan tiket nyata dari backlog Anda, lihat bagaimana ia menulis kode dan merencanakan, lalu nilai kualitas coding sehari-harinya sendiri alih-alih memercayai sebuah grafik.
Jika Anda ingin merasakan posisi GLM 5.2 relatif terhadap frontier, itulah jalur tercepatnya: coba GLM 5.2 gratis di glm5.app dan biarkan tugas Anda sendiri yang memutuskan.
Pertanyaan yang Sering Diajukan
Apakah GLM 5.2 lebih baik daripada GPT-5.5 pada benchmark? Pada sebagian besar suite coding dan berhorizon panjang, ya—ia memimpin GPT-5.5 pada SWE-bench Pro (62.1 vs 58.6), FrontierSWE (74.4 vs 72.6), dan MCP-Atlas, sembari berbiaya jauh lebih murah.
Apakah GLM 5.2 lebih baik daripada Claude Opus 4.8? Tidak pada skor mentah. Opus 4.8 masih sedikit unggul pada sebagian besar benchmark dan menarik diri dengan jelas pada tugas berjam-jam yang paling sulit (SWE-Marathon, Tool-Decathlon). GLM 5.2 cukup dekat sehingga untuk coding sehari-hari kesenjangannya jarang terlihat—dengan harga sepersekian.
Berapa skor SWE-bench Pro GLM 5.2? 62.1, model open-weight pertama yang sungguh-sungguh mendekati frontier tertutup, dan lompatan jelas di atas 58.4 milik GLM 5.1.
Apakah angka benchmark GLM 5.2 ini dapat diandalkan? Angka-angka itu berasal dari rilis resmi Z.AI dan papan peringkat independen, tetapi benchmark berubah cepat dan metodenya bervariasi. Perlakukan sebagai potret sesaat dan verifikasi angka terkini di halaman tiap vendor.
Di peringkat berapa GLM 5.2 di antara model terbuka? Pertama. Ia memuncaki Artificial Analysis Intelligence Index untuk model open-weight dan memimpin kategori kode Design Arena.
Bagaimana saya bisa menguji GLM 5.2 tanpa pengaturan apa pun? Mengobrollah dengannya gratis di browser di glm5.app—tanpa API key, tanpa instalasi, tidak ada yang perlu diunduh.
Kesimpulan
Jadi, bagaimana performa GLM 5.2 sebenarnya? Ia adalah model open-weight yang akhirnya menutup kesenjangan: unggul atas GPT-5.5 pada sebagian besar benchmark coding, dalam jarak satu atau dua poin dari Claude Opus 4.8 pada pekerjaan berhorizon panjang, dan hanya jelas tertinggal pada tugas berjam-jam yang paling sulit—semuanya dengan biaya sepersekian. Untuk pekerjaan yang memenuhi hari-hari sebagian besar pengembang, skornya berkata ia adalah default kelas frontier yang juga bisa Anda jalankan dengan cara Anda sendiri.
Tapi benchmark adalah rata-rata atas tugas orang lain. Satu-satunya skor yang penting adalah bagaimana ia menangani tugas Anda—jadi jalankan prompt Anda sendiri melaluinya, tanpa kunci, tanpa pengaturan, langsung di sini: coba GLM 5.2 gratis di glm5.app.


