TL;DR

GLM-5.1 là model open-weight của Z.AI (tiền thân Zhipu AI) — 754B params tổng, 40B active, kiến trúc MoE + Dynamic Sparse Attention. Nó là model open-weight đầu tiên vượt Claude Opus 4.6 và GPT-5.4 trên SWE-Bench Pro (58.4 vs 57.3 vs 57.7), duy trì autonomous agent execution tới 8 giờ liên tục, và chạy được local trên Mac Studio 256GB với throughput 18.47 tokens/giây ở bản quant UD-IQ2_M. Weights MIT, API $1.00/$3.20 per 1M tokens — rẻ hơn Opus 4.6 tới 5–8 lần.

What's new

Z.AI drop weights GLM-5.1 lên Hugging Face ngày 07/04/2026 dưới giấy phép MIT (tự do thương mại). Đây là hậu bản của GLM-5 (ra 11/02), nhưng là lần đầu cộng đồng open-source có một model vượt ngưỡng Opus trên benchmark coding khó nhất hiện tại.

  • 754B tổng params, 40B active per token (MoE sparse).
  • 200K context window, output tối đa 128K tokens.
  • Train 100% trên Huawei Ascend 910B — zero Nvidia hardware.
  • Hỗ trợ SGLang, vLLM, xLLM, Transformers, KTransformers, llama.cpp.
  • Demo cộng đồng (@DataChaz): 1,432 tokens / 1:17s / 18.47 t/s trên Mac Studio 256GB unified memory.

Why it matters

Đây là lần đầu developer có thể chạy một model level-Opus hoàn toàn offline trên một chiếc máy để bàn duy nhất. Ý nghĩa thực tế:

  • Code riêng tư: không cần gửi source lên cloud, phù hợp team làm sản phẩm proprietary, health-tech, fintech.
  • Chi phí ổn định: mua máy một lần, chạy thoải mái — không còn hoá đơn API 5 con số mỗi tháng.
  • Hạ tầng phi-Nvidia: chứng minh rằng SOTA coding model khả thi trên chip Ascend — giảm phụ thuộc chuỗi cung GPU phương Tây.
  • Agent 8 tiếng: đủ bền để chạy một shift làm việc thật, không chỉ demo vài phút.

Technical facts

PropertyValue
Tổng params754B
Active params/token40B
Kiến trúcGLM_MOE_DSA
Context window200,000 tokens
Max output131,072 tokens
LicenseMIT
Training hardwareHuawei Ascend 910B
Full BF16 size~1.49 TB
Quant UD-IQ2_M size236 GB
Mac Studio 256GB throughput18.47 t/s
API price (input/output)$1.00 / $3.20 per 1M

Comparison

Trên các benchmark agentic coding/security quan trọng nhất:

BenchmarkGLM-5.1Claude Opus 4.6GPT-5.4GLM-5
SWE-Bench Pro58.457.357.755.1
Terminal-Bench 2.063.565.456.2
NL2Repo42.749.835.9
CyberGym68.766.648.3
AIME 202695.398.7
MCP-Atlas71.8

GLM-5.1 đạt #1 open-weight trên SWE-Bench Pro và CyberGym, thu hẹp khoảng cách với closed models xuống 1–2 điểm trên hầu hết eval coding. Vẫn còn chênh ở Terminal-Bench 2.0 và NL2Repo — chọn Opus cho refactor repo-level tinh vi, chọn GLM-5.1 cho cost-sensitive và self-host.

Use cases

  • Long-horizon agent: tối ưu CUDA kernel 2.6× → 35.7× speedup qua hàng trăm iteration (demo chính thức của Z.AI).
  • Local dev box: Mac Studio 256GB với quant 2-bit, chạy agent code 24/7 mà không đụng cloud.
  • Monorepo code review: 200K context nuốt cả codebase trung bình trong 1 prompt.
  • MCP tool-calling agent: điểm MCP-Atlas 71.8 cho phép build agent gọi nhiều external tool ổn định.
  • Cost optimization: workload production đang ngốn Claude Opus → migrate sang GLM-5.1 qua Z.AI API giảm chi phí 5–8×.

Limitations & pricing

  • Yêu cầu phần cứng: 256GB unified memory tối thiểu để chạy local ở chất lượng tốt; 1×24GB GPU + 256GB RAM + MoE offload là setup thay thế.
  • Vẫn sau Opus trên Terminal-Bench 2.0 (63.5 vs 65.4) và NL2Repo (42.7 vs 49.8).
  • Fine-tune khó ngoài hệ sinh thái Ascend — công cụ training ecosystem NVIDIA chưa matched đầy đủ.
  • API: $1.00 input / $3.20 output per 1M tokens trên Z.AI.
  • BytePlus ModelArk Coding Plan: đã bundle GLM-5.1 cùng 5 model elite khác — ByteDance-Seed-2.0-pro/lite, DeepSeek-V3.2, GLM-4.7, Kimi-K2.5, GPT-OSS — trong một subscription coding duy nhất.

What's next

Z.AI đã xác nhận chat.z.ai sẽ mở cho cộng đồng sớm. Lộ trình tiếp theo: mở rộng MCP agent ecosystem và scale up RL training cho agent dài hơi hơn (vượt 8 giờ). Với open weights và MIT license, cộng đồng llama.cpp / Unsloth / Ollama đã có sẵn quant bản 2-bit đến 8-bit — rào cản triển khai chỉ còn là RAM.

Nếu bạn đang build coding agent hoặc dev platform có lưu ý về privacy, đây là thời điểm tốt để thử cặp đôi Mac Studio 256GB + GLM-5.1 UD-IQ2_M trước khi commit một năm Opus API.

Nguồn: VentureBeat, MarkTechPost, Hugging Face, Unsloth, BytePlus ModelArk, @DataChaz demo.