- Z.AI công bố GLM-5.1 — MoE 754B params, MIT license, đạt 58.4 trên SWE-Bench Pro (vượt Claude Opus 4.6 và GPT-5.4), duy trì agentic execution 8 giờ liên tục và chạy được local trên Mac Studio 256GB ở 18.47 t/s.
- BytePlus đã bundle vào ModelArk Coding Plan cùng 5 model elite khác.
TL;DR
GLM-5.1 là model open-weight của Z.AI (tiền thân Zhipu AI) — 754B params tổng, 40B active, kiến trúc MoE + Dynamic Sparse Attention. Nó là model open-weight đầu tiên vượt Claude Opus 4.6 và GPT-5.4 trên SWE-Bench Pro (58.4 vs 57.3 vs 57.7), duy trì autonomous agent execution tới 8 giờ liên tục, và chạy được local trên Mac Studio 256GB với throughput 18.47 tokens/giây ở bản quant UD-IQ2_M. Weights MIT, API $1.00/$3.20 per 1M tokens — rẻ hơn Opus 4.6 tới 5–8 lần.
What's new
Z.AI drop weights GLM-5.1 lên Hugging Face ngày 07/04/2026 dưới giấy phép MIT (tự do thương mại). Đây là hậu bản của GLM-5 (ra 11/02), nhưng là lần đầu cộng đồng open-source có một model vượt ngưỡng Opus trên benchmark coding khó nhất hiện tại.
- 754B tổng params, 40B active per token (MoE sparse).
- 200K context window, output tối đa 128K tokens.
- Train 100% trên Huawei Ascend 910B — zero Nvidia hardware.
- Hỗ trợ SGLang, vLLM, xLLM, Transformers, KTransformers, llama.cpp.
- Demo cộng đồng (@DataChaz): 1,432 tokens / 1:17s / 18.47 t/s trên Mac Studio 256GB unified memory.
Why it matters
Đây là lần đầu developer có thể chạy một model level-Opus hoàn toàn offline trên một chiếc máy để bàn duy nhất. Ý nghĩa thực tế:
- Code riêng tư: không cần gửi source lên cloud, phù hợp team làm sản phẩm proprietary, health-tech, fintech.
- Chi phí ổn định: mua máy một lần, chạy thoải mái — không còn hoá đơn API 5 con số mỗi tháng.
- Hạ tầng phi-Nvidia: chứng minh rằng SOTA coding model khả thi trên chip Ascend — giảm phụ thuộc chuỗi cung GPU phương Tây.
- Agent 8 tiếng: đủ bền để chạy một shift làm việc thật, không chỉ demo vài phút.
Technical facts
| Property | Value |
|---|---|
| Tổng params | 754B |
| Active params/token | 40B |
| Kiến trúc | GLM_MOE_DSA |
| Context window | 200,000 tokens |
| Max output | 131,072 tokens |
| License | MIT |
| Training hardware | Huawei Ascend 910B |
| Full BF16 size | ~1.49 TB |
| Quant UD-IQ2_M size | 236 GB |
| Mac Studio 256GB throughput | 18.47 t/s |
| API price (input/output) | $1.00 / $3.20 per 1M |
Comparison
Trên các benchmark agentic coding/security quan trọng nhất:
| Benchmark | GLM-5.1 | Claude Opus 4.6 | GPT-5.4 | GLM-5 |
|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 57.3 | 57.7 | 55.1 |
| Terminal-Bench 2.0 | 63.5 | 65.4 | — | 56.2 |
| NL2Repo | 42.7 | 49.8 | — | 35.9 |
| CyberGym | 68.7 | 66.6 | — | 48.3 |
| AIME 2026 | 95.3 | — | 98.7 | — |
| MCP-Atlas | 71.8 | — | — | — |
GLM-5.1 đạt #1 open-weight trên SWE-Bench Pro và CyberGym, thu hẹp khoảng cách với closed models xuống 1–2 điểm trên hầu hết eval coding. Vẫn còn chênh ở Terminal-Bench 2.0 và NL2Repo — chọn Opus cho refactor repo-level tinh vi, chọn GLM-5.1 cho cost-sensitive và self-host.
Use cases
- Long-horizon agent: tối ưu CUDA kernel 2.6× → 35.7× speedup qua hàng trăm iteration (demo chính thức của Z.AI).
- Local dev box: Mac Studio 256GB với quant 2-bit, chạy agent code 24/7 mà không đụng cloud.
- Monorepo code review: 200K context nuốt cả codebase trung bình trong 1 prompt.
- MCP tool-calling agent: điểm MCP-Atlas 71.8 cho phép build agent gọi nhiều external tool ổn định.
- Cost optimization: workload production đang ngốn Claude Opus → migrate sang GLM-5.1 qua Z.AI API giảm chi phí 5–8×.
Limitations & pricing
- Yêu cầu phần cứng: 256GB unified memory tối thiểu để chạy local ở chất lượng tốt; 1×24GB GPU + 256GB RAM + MoE offload là setup thay thế.
- Vẫn sau Opus trên Terminal-Bench 2.0 (63.5 vs 65.4) và NL2Repo (42.7 vs 49.8).
- Fine-tune khó ngoài hệ sinh thái Ascend — công cụ training ecosystem NVIDIA chưa matched đầy đủ.
- API: $1.00 input / $3.20 output per 1M tokens trên Z.AI.
- BytePlus ModelArk Coding Plan: đã bundle GLM-5.1 cùng 5 model elite khác — ByteDance-Seed-2.0-pro/lite, DeepSeek-V3.2, GLM-4.7, Kimi-K2.5, GPT-OSS — trong một subscription coding duy nhất.
What's next
Z.AI đã xác nhận chat.z.ai sẽ mở cho cộng đồng sớm. Lộ trình tiếp theo: mở rộng MCP agent ecosystem và scale up RL training cho agent dài hơi hơn (vượt 8 giờ). Với open weights và MIT license, cộng đồng llama.cpp / Unsloth / Ollama đã có sẵn quant bản 2-bit đến 8-bit — rào cản triển khai chỉ còn là RAM.
Nếu bạn đang build coding agent hoặc dev platform có lưu ý về privacy, đây là thời điểm tốt để thử cặp đôi Mac Studio 256GB + GLM-5.1 UD-IQ2_M trước khi commit một năm Opus API.
Nguồn: VentureBeat, MarkTechPost, Hugging Face, Unsloth, BytePlus ModelArk, @DataChaz demo.

