Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Summary post

Alibaba vừa open-source Qwen3.6-27B — model dense 27B đánh bại Qwen3.5-397B-A17B (MoE) trên mọi benchmark coding agentic, chạy local 16.8GB GGUF trên Mac 24GB unified memory với ~25 t/s. Apache 2.0, không phí, không API key.

8phút đọc

8mục nội dung

6chủ đề

TL;DR

Ngày 22/04/2026, Alibaba Qwen team open-source Qwen3.6-27B — model dense 27 tỷ tham số, license Apache 2.0, vượt mặt người tiền nhiệm 397B MoE (Qwen3.5-397B-A17B) trên mọi benchmark coding agentic chính. SWE-bench Verified 77.2%, Terminal-Bench 2.0 59.3% ngang bằng tuyệt đối Claude 4.5 Opus. Quan trọng nhất: bản Q4_K_M GGUF chỉ 16.8GB, chạy mượt trên MacBook Pro 24GB unified memory ở tốc độ ~25 token/s. Local AI thật sự đã đến.

SVG art generated locally by Qwen3.6-27B on a Mac

What's new

Qwen3.6-27B là model dense đầu tiên trong gia đình Qwen3.6 (sau Qwen3.6-Plus đóng và Qwen3.6-35B-A3B MoE). Dense nghĩa là toàn bộ 27B tham số đều active mỗi pass — không có expert routing, không có overhead MoE, dễ deploy, dễ quantize.

Có hai tính năng đáng chú ý:

Thinking Preservation — lần đầu tiên trong open-source, model giữ lại chain-of-thought từ các turn trước trong cùng cuộc hội thoại. Bật bằng preserve_thinking: true. Trong agent loop nhiều turn (Claude Code, OpenCode, OpenClaw), điều này cắt giảm reasoning lặp và tận dụng KV cache tốt hơn.
Hybrid attention — 64 layer, mỗi 4 sublayer thì 3 dùng Gated DeltaNet (linear attention, tiết kiệm memory) và 1 dùng Gated Attention tiêu chuẩn. Multi-Token Prediction (MTP) giúp speculative decoding.

Multimodal native: text + image + video qua một vision encoder duy nhất. Context window 262,144 token native, kéo dài tới 1,010,000 token bằng YaRN scaling.

Why it matters

Tweet gốc của @spokutta tóm gọn lý do: "27B dense, flagship-level agentic coding, running entirely on hardware in your hands." Đây là điểm chuyển:

55.6 GB đánh bại 807 GB. File BF16 đầy đủ chỉ 55.6GB — bản 4-bit còn 16.8GB. So với Qwen3.5-397B-A17B (807GB) thì gọn hơn 14× và benchmark coding lại tốt hơn.
Mac 24GB chạy được. Trước đây flagship coding model phải gọi API hoặc dùng cluster GPU. Giờ một MacBook Pro M-series 24GB đủ chạy.
Apache 2.0. Dùng thương mại miễn phí. Code nhạy cảm, NDA, môi trường air-gapped — không cần lo data leak ra cloud.

Technical facts

Bảng thông số chính:

Property	Value
Total params	27B (dense)
Layers	64
Hidden dim	5120
Hidden layout	16 × (3 × Gated DeltaNet → FFN, 1 × Gated Attention → FFN)
Native context	262,144 tokens
Max context (YaRN)	1,010,000 tokens
BF16 file size	55.6 GB
Q4_K_M GGUF	16.8 GB
Min RAM (Q4)	~18 GB
License	Apache 2.0

Coding benchmark (cùng harness, theo Qwen team):

Benchmark	Qwen3.6-27B	Qwen3.5-397B-A17B	Claude 4.5 Opus
SWE-bench Verified	77.2	76.2	80.9
SWE-bench Pro	53.5	50.9	57.1
SWE-bench Multilingual	71.3	69.3	77.5
Terminal-Bench 2.0	59.3	52.5	59.3
SkillsBench	48.2	30.0	45.3
QwenWebBench (Elo)	1487	1186	1536

Reasoning ngoài coding cũng mạnh: GPQA Diamond 87.8, AIME 2026 94.1, LiveCodeBench v6 83.9, MMLU-Pro 86.2.

Comparison

Một con số đáng chú ý: SkillsBench tăng từ 30.0 (397B-A17B) lên 48.2 — cải thiện 77% tương đối với 14.8× ít tham số hơn. Terminal-Bench 2.0 đạt 59.3 chính xác bằng Claude 4.5 Opus — đây là benchmark thực thi terminal autonomy (timeout 3 giờ, 32 CPU, 48GB RAM), không phải one-shot code gen.

So với rivals:

Gemma 4 31B (Apache 2.0 dense): Qwen mạnh hơn về coding, Gemma cần 24GB+ vs Qwen 18GB.
GLM-5.1 (754B MoE): mạnh hơn 5 điểm SWE-bench Pro nhưng cần 8× H100 — không phải lựa chọn cho local.
Claude Opus 4.6/4.7: vẫn dẫn SWE-bench Verified (80.8% / 84.3%) nhưng đóng và $5/$25 per 1M token. Qwen3.6-27B miễn phí self-host.

Ghi chú trung thực: Qwen tự chạy benchmark bằng agent scaffold của họ. Reproduce độc lập tại thời điểm 23/04/2026 còn hạn chế. Số liệu đáng tin hướng (directional) nhưng nên test trên workload thực tế của bạn.

Use cases

Phù hợp nhất khi:

Bạn chạy autonomous coding agent local — OpenClaw, Claude Code (qua proxy), Qwen Code, OpenCode. Hỗ trợ chuỗi 1,000+ tool call.
Code nhạy cảm/proprietary — không gửi data lên cloud API.
Repository-level reasoning — context 262K đủ để load nguyên codebase.
Frontend, SVG, data viz, animation, 3D — QwenWebBench 1487 (chỉ thua Claude Opus 1536).

Chạy trên MacBook Pro: Mac 24GB unified memory chạy ngon Q4_K_M (16.8GB). Floor 18GB cho Q4. Mac 16GB nên dùng Q2/Q3 (chất lượng giảm).

Backend đề xuất: llama.cpp (brew install llama.cpp) hoặc Apple MLX framework. Lưu ý: Ollama chưa hỗ trợ Qwen3.6 GGUF vì có file mmproj vision riêng — dùng Unsloth Studio hoặc llama.cpp.

llama-server -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --presence_penalty=1.5 \
  --jinja --chat-template-kwargs '{"preserve_thinking": true}'

Test thực tế của Simon Willison trên Mac, 16.8GB Q4_K_M qua llama-server: prompt read 54.32 t/s, generation 24.74–25.57 t/s bền vững qua 4,000–6,500 token output. Một SVG "pelican riding a bicycle" mất ~3 phút — đây là kết quả chạy hoàn toàn offline.

Pelican on a bicycle SVG generated locally by Qwen3.6-27B Q4_K_M on Apple Silicon

Limitations & pricing

Pricing: Self-host miễn phí (Apache 2.0). API qua Alibaba Cloud Model Studio (DashScope) hoặc OpenRouter — billing chuẩn. Qwen Studio web (chat.qwen.ai) miễn phí thử.

Available: Hugging Face (BF16 + FP8), ModelScope, GGUF qua unsloth/Qwen3.6-27B-GGUF, MLX quants qua mlx-community. Tương thích SGLang ≥0.5.10, vLLM ≥0.19.0, KTransformers, HF Transformers, llama.cpp.

Limitations cần biết:

CUDA 13.2 bug — output gibberish trên driver này. NVIDIA đang fix. Dùng CUDA cũ hơn.
Ollama chưa support — file mmproj riêng phá vỡ pipeline Ollama.
Context floor — giảm dưới 128K thì reasoning quality giảm đáng kể.
Static YaRN — open-source frameworks dùng scaling factor cố định, set quá cao sẽ làm hỏng performance trên text ngắn.
Top-tier coding — vẫn kém Claude Opus 4.6 3.6 điểm trên SWE-bench Verified, kém GLM-5.1 5 điểm trên SWE-bench Pro.
Speed — dense → chậm hơn MoE sibling 35B-A3B (3B active) trên cùng phần cứng.

What's next

Qwen team chỉ nói "Stay tuned". API support đầy đủ trên Alibaba Cloud Model Studio sẽ ra "coming soon". Gia đình Qwen3.6 hiện có: 27B (dense, OSS), 35B-A3B (MoE, OSS), Plus (closed API), Max-Preview (closed flagship — top 6 coding benchmark).

Bức tranh lớn: 2026 là năm dense 20-30B model xóa nhòa khoảng cách với MoE 400B+ trên coding. Khi Thinking Preservation trở thành chuẩn (dự đoán trong 6 tháng tới), workflow agent local sẽ rẻ và nhanh hơn nhiều. Câu nói của @spokutta đúng: Local AI is getting real.

Nguồn: Qwen blog, Hugging Face model card, Simon Willison local test, MarkTechPost, Unsloth docs.

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face