TL;DR
Ngày 22/04/2026, Alibaba Qwen team open-source Qwen3.6-27B — model dense 27 tỷ tham số, license Apache 2.0, vượt mặt người tiền nhiệm 397B MoE (Qwen3.5-397B-A17B) trên mọi benchmark coding agentic chính. SWE-bench Verified 77.2%, Terminal-Bench 2.0 59.3% ngang bằng tuyệt đối Claude 4.5 Opus. Quan trọng nhất: bản Q4_K_M GGUF chỉ 16.8GB, chạy mượt trên MacBook Pro 24GB unified memory ở tốc độ ~25 token/s. Local AI thật sự đã đến.

What's new
Qwen3.6-27B là model dense đầu tiên trong gia đình Qwen3.6 (sau Qwen3.6-Plus đóng và Qwen3.6-35B-A3B MoE). Dense nghĩa là toàn bộ 27B tham số đều active mỗi pass — không có expert routing, không có overhead MoE, dễ deploy, dễ quantize.
Có hai tính năng đáng chú ý:
- Thinking Preservation — lần đầu tiên trong open-source, model giữ lại chain-of-thought từ các turn trước trong cùng cuộc hội thoại. Bật bằng
preserve_thinking: true. Trong agent loop nhiều turn (Claude Code, OpenCode, OpenClaw), điều này cắt giảm reasoning lặp và tận dụng KV cache tốt hơn. - Hybrid attention — 64 layer, mỗi 4 sublayer thì 3 dùng Gated DeltaNet (linear attention, tiết kiệm memory) và 1 dùng Gated Attention tiêu chuẩn. Multi-Token Prediction (MTP) giúp speculative decoding.
Multimodal native: text + image + video qua một vision encoder duy nhất. Context window 262,144 token native, kéo dài tới 1,010,000 token bằng YaRN scaling.
Why it matters
Tweet gốc của @spokutta tóm gọn lý do: "27B dense, flagship-level agentic coding, running entirely on hardware in your hands." Đây là điểm chuyển:
- 55.6 GB đánh bại 807 GB. File BF16 đầy đủ chỉ 55.6GB — bản 4-bit còn 16.8GB. So với Qwen3.5-397B-A17B (807GB) thì gọn hơn 14× và benchmark coding lại tốt hơn.
- Mac 24GB chạy được. Trước đây flagship coding model phải gọi API hoặc dùng cluster GPU. Giờ một MacBook Pro M-series 24GB đủ chạy.
- Apache 2.0. Dùng thương mại miễn phí. Code nhạy cảm, NDA, môi trường air-gapped — không cần lo data leak ra cloud.
Technical facts
Bảng thông số chính:
| Property | Value |
|---|---|
| Total params | 27B (dense) |
| Layers | 64 |
| Hidden dim | 5120 |
| Hidden layout | 16 × (3 × Gated DeltaNet → FFN, 1 × Gated Attention → FFN) |
| Native context | 262,144 tokens |
| Max context (YaRN) | 1,010,000 tokens |
| BF16 file size | 55.6 GB |
| Q4_K_M GGUF | 16.8 GB |
| Min RAM (Q4) | ~18 GB |
| License | Apache 2.0 |
Coding benchmark (cùng harness, theo Qwen team):
| Benchmark | Qwen3.6-27B | Qwen3.5-397B-A17B | Claude 4.5 Opus |
|---|---|---|---|
| SWE-bench Verified | 77.2 | 76.2 | 80.9 |
| SWE-bench Pro | 53.5 | 50.9 | 57.1 |
| SWE-bench Multilingual | 71.3 | 69.3 | 77.5 |
| Terminal-Bench 2.0 | 59.3 | 52.5 | 59.3 |
| SkillsBench | 48.2 | 30.0 | 45.3 |
| QwenWebBench (Elo) | 1487 | 1186 | 1536 |
Reasoning ngoài coding cũng mạnh: GPQA Diamond 87.8, AIME 2026 94.1, LiveCodeBench v6 83.9, MMLU-Pro 86.2.
Comparison
Một con số đáng chú ý: SkillsBench tăng từ 30.0 (397B-A17B) lên 48.2 — cải thiện 77% tương đối với 14.8× ít tham số hơn. Terminal-Bench 2.0 đạt 59.3 chính xác bằng Claude 4.5 Opus — đây là benchmark thực thi terminal autonomy (timeout 3 giờ, 32 CPU, 48GB RAM), không phải one-shot code gen.
So với rivals:
- Gemma 4 31B (Apache 2.0 dense): Qwen mạnh hơn về coding, Gemma cần 24GB+ vs Qwen 18GB.
- GLM-5.1 (754B MoE): mạnh hơn 5 điểm SWE-bench Pro nhưng cần 8× H100 — không phải lựa chọn cho local.
- Claude Opus 4.6/4.7: vẫn dẫn SWE-bench Verified (80.8% / 84.3%) nhưng đóng và $5/$25 per 1M token. Qwen3.6-27B miễn phí self-host.
Ghi chú trung thực: Qwen tự chạy benchmark bằng agent scaffold của họ. Reproduce độc lập tại thời điểm 23/04/2026 còn hạn chế. Số liệu đáng tin hướng (directional) nhưng nên test trên workload thực tế của bạn.
Use cases
Phù hợp nhất khi:
- Bạn chạy autonomous coding agent local — OpenClaw, Claude Code (qua proxy), Qwen Code, OpenCode. Hỗ trợ chuỗi 1,000+ tool call.
- Code nhạy cảm/proprietary — không gửi data lên cloud API.
- Repository-level reasoning — context 262K đủ để load nguyên codebase.
- Frontend, SVG, data viz, animation, 3D — QwenWebBench 1487 (chỉ thua Claude Opus 1536).
Chạy trên MacBook Pro: Mac 24GB unified memory chạy ngon Q4_K_M (16.8GB). Floor 18GB cho Q4. Mac 16GB nên dùng Q2/Q3 (chất lượng giảm).
Backend đề xuất: llama.cpp (brew install llama.cpp) hoặc Apple MLX framework. Lưu ý: Ollama chưa hỗ trợ Qwen3.6 GGUF vì có file mmproj vision riêng — dùng Unsloth Studio hoặc llama.cpp.
llama-server -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --presence_penalty=1.5 \
--jinja --chat-template-kwargs '{"preserve_thinking": true}'Test thực tế của Simon Willison trên Mac, 16.8GB Q4_K_M qua llama-server: prompt read 54.32 t/s, generation 24.74–25.57 t/s bền vững qua 4,000–6,500 token output. Một SVG "pelican riding a bicycle" mất ~3 phút — đây là kết quả chạy hoàn toàn offline.

Limitations & pricing
Pricing: Self-host miễn phí (Apache 2.0). API qua Alibaba Cloud Model Studio (DashScope) hoặc OpenRouter — billing chuẩn. Qwen Studio web (chat.qwen.ai) miễn phí thử.
Available: Hugging Face (BF16 + FP8), ModelScope, GGUF qua unsloth/Qwen3.6-27B-GGUF, MLX quants qua mlx-community. Tương thích SGLang ≥0.5.10, vLLM ≥0.19.0, KTransformers, HF Transformers, llama.cpp.
Limitations cần biết:
- CUDA 13.2 bug — output gibberish trên driver này. NVIDIA đang fix. Dùng CUDA cũ hơn.
- Ollama chưa support — file
mmprojriêng phá vỡ pipeline Ollama. - Context floor — giảm dưới 128K thì reasoning quality giảm đáng kể.
- Static YaRN — open-source frameworks dùng scaling factor cố định, set quá cao sẽ làm hỏng performance trên text ngắn.
- Top-tier coding — vẫn kém Claude Opus 4.6 3.6 điểm trên SWE-bench Verified, kém GLM-5.1 5 điểm trên SWE-bench Pro.
- Speed — dense → chậm hơn MoE sibling 35B-A3B (3B active) trên cùng phần cứng.
What's next
Qwen team chỉ nói "Stay tuned". API support đầy đủ trên Alibaba Cloud Model Studio sẽ ra "coming soon". Gia đình Qwen3.6 hiện có: 27B (dense, OSS), 35B-A3B (MoE, OSS), Plus (closed API), Max-Preview (closed flagship — top 6 coding benchmark).
Bức tranh lớn: 2026 là năm dense 20-30B model xóa nhòa khoảng cách với MoE 400B+ trên coding. Khi Thinking Preservation trở thành chuẩn (dự đoán trong 6 tháng tới), workflow agent local sẽ rẻ và nhanh hơn nhiều. Câu nói của @spokutta đúng: Local AI is getting real.
Nguồn: Qwen blog, Hugging Face model card, Simon Willison local test, MarkTechPost, Unsloth docs.

