GLM-5.1 ra mắt: model open-weight đầu tiên vượt Opus 4.6 trên SWE-Bench Pro, chạy được trên Mac Studio 256GB

TL;DR

GLM-5.1 là model open-weight của Z.AI (tiền thân Zhipu AI) — 754B params tổng, 40B active, kiến trúc MoE + Dynamic Sparse Attention. Nó là model open-weight đầu tiên vượt Claude Opus 4.6 và GPT-5.4 trên SWE-Bench Pro (58.4 vs 57.3 vs 57.7), duy trì autonomous agent execution tới 8 giờ liên tục, và chạy được local trên Mac Studio 256GB với throughput 18.47 tokens/giây ở bản quant UD-IQ2_M. Weights MIT, API $1.00/$3.20 per 1M tokens — rẻ hơn Opus 4.6 tới 5–8 lần.

What's new

Z.AI drop weights GLM-5.1 lên Hugging Face ngày 07/04/2026 dưới giấy phép MIT (tự do thương mại). Đây là hậu bản của GLM-5 (ra 11/02), nhưng là lần đầu cộng đồng open-source có một model vượt ngưỡng Opus trên benchmark coding khó nhất hiện tại.

754B tổng params, 40B active per token (MoE sparse).
200K context window, output tối đa 128K tokens.
Train 100% trên Huawei Ascend 910B — zero Nvidia hardware.
Hỗ trợ SGLang, vLLM, xLLM, Transformers, KTransformers, llama.cpp.
Demo cộng đồng (@DataChaz): 1,432 tokens / 1:17s / 18.47 t/s trên Mac Studio 256GB unified memory.

Why it matters

Đây là lần đầu developer có thể chạy một model level-Opus hoàn toàn offline trên một chiếc máy để bàn duy nhất. Ý nghĩa thực tế:

Code riêng tư: không cần gửi source lên cloud, phù hợp team làm sản phẩm proprietary, health-tech, fintech.
Chi phí ổn định: mua máy một lần, chạy thoải mái — không còn hoá đơn API 5 con số mỗi tháng.
Hạ tầng phi-Nvidia: chứng minh rằng SOTA coding model khả thi trên chip Ascend — giảm phụ thuộc chuỗi cung GPU phương Tây.
Agent 8 tiếng: đủ bền để chạy một shift làm việc thật, không chỉ demo vài phút.

Technical facts

Property	Value
Tổng params	754B
Active params/token	40B
Kiến trúc	GLM_MOE_DSA
Context window	200,000 tokens
Max output	131,072 tokens
License	MIT
Training hardware	Huawei Ascend 910B
Full BF16 size	~1.49 TB
Quant UD-IQ2_M size	236 GB
Mac Studio 256GB throughput	18.47 t/s
API price (input/output)	$1.00 / $3.20 per 1M

Comparison

Trên các benchmark agentic coding/security quan trọng nhất:

Benchmark	GLM-5.1	Claude Opus 4.6	GPT-5.4	GLM-5
SWE-Bench Pro	58.4	57.3	57.7	55.1
Terminal-Bench 2.0	63.5	65.4	—	56.2
NL2Repo	42.7	49.8	—	35.9
CyberGym	68.7	66.6	—	48.3
AIME 2026	95.3	—	98.7	—
MCP-Atlas	71.8	—	—	—

GLM-5.1 đạt #1 open-weight trên SWE-Bench Pro và CyberGym, thu hẹp khoảng cách với closed models xuống 1–2 điểm trên hầu hết eval coding. Vẫn còn chênh ở Terminal-Bench 2.0 và NL2Repo — chọn Opus cho refactor repo-level tinh vi, chọn GLM-5.1 cho cost-sensitive và self-host.

Use cases

Long-horizon agent: tối ưu CUDA kernel 2.6× → 35.7× speedup qua hàng trăm iteration (demo chính thức của Z.AI).
Local dev box: Mac Studio 256GB với quant 2-bit, chạy agent code 24/7 mà không đụng cloud.
Monorepo code review: 200K context nuốt cả codebase trung bình trong 1 prompt.
MCP tool-calling agent: điểm MCP-Atlas 71.8 cho phép build agent gọi nhiều external tool ổn định.
Cost optimization: workload production đang ngốn Claude Opus → migrate sang GLM-5.1 qua Z.AI API giảm chi phí 5–8×.

Limitations & pricing

Yêu cầu phần cứng: 256GB unified memory tối thiểu để chạy local ở chất lượng tốt; 1×24GB GPU + 256GB RAM + MoE offload là setup thay thế.
Vẫn sau Opus trên Terminal-Bench 2.0 (63.5 vs 65.4) và NL2Repo (42.7 vs 49.8).
Fine-tune khó ngoài hệ sinh thái Ascend — công cụ training ecosystem NVIDIA chưa matched đầy đủ.
API: $1.00 input / $3.20 output per 1M tokens trên Z.AI.
BytePlus ModelArk Coding Plan: đã bundle GLM-5.1 cùng 5 model elite khác — ByteDance-Seed-2.0-pro/lite, DeepSeek-V3.2, GLM-4.7, Kimi-K2.5, GPT-OSS — trong một subscription coding duy nhất.

What's next

Z.AI đã xác nhận chat.z.ai sẽ mở cho cộng đồng sớm. Lộ trình tiếp theo: mở rộng MCP agent ecosystem và scale up RL training cho agent dài hơi hơn (vượt 8 giờ). Với open weights và MIT license, cộng đồng llama.cpp / Unsloth / Ollama đã có sẵn quant bản 2-bit đến 8-bit — rào cản triển khai chỉ còn là RAM.

Nếu bạn đang build coding agent hoặc dev platform có lưu ý về privacy, đây là thời điểm tốt để thử cặp đôi Mac Studio 256GB + GLM-5.1 UD-IQ2_M trước khi commit một năm Opus API.

Nguồn: VentureBeat, MarkTechPost, Hugging Face, Unsloth, BytePlus ModelArk, @DataChaz demo.

GLM-5.1 ra mắt: model open-weight đầu tiên vượt Opus 4.6 trên SWE-Bench Pro, chạy được trên Mac Studio 256GB

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7