- Alibaba vừa release Qwen3.6-27B — một mô hình dense 27B open-source (Apache 2.0) vượt qua chính flagship 397B của họ trên các coding benchmark quan trọng.
- Nhẹ hơn ~15 lần, chạy local trên 1 GPU, đa mô-thức, có fast mode và deep reasoning mode.
TL;DR
Ngày 22/04/2026, đội Qwen (Alibaba) release Qwen3.6-27B — một mô hình dense 27B open-source, license Apache 2.0. Điểm đáng kể nhất: trên bộ benchmark agentic coding, mô hình 27B này vượt qua chính flagship Qwen3.5-397B-A17B (807 GB trên đĩa) của cùng team. Nhỏ hơn khoảng 15 lần, chạy được local trên 1 GPU 24 GB với bản quantize Q4, và đi kèm cả fast mode lẫn deep reasoning mode. Efficiency đang thực sự bắt đầu thắng size.
What's new
- 27B dense, không phải MoE — đơn giản, dễ deploy hơn kiến trúc mixture-of-experts.
- Apache 2.0 — dùng thương mại thoải mái, fine-tune thoải mái, không có usage gating.
- Đa mô-thức: text + ảnh + video qua vision encoder tích hợp.
- Hai chế độ suy luận: thinking mode (mặc định, xuất
<think>...</think>) cho bài toán khó, và non-thinking / fast mode cho chat tương tác nhanh. - Context 262,144 tokens native, mở rộng tới ~1,010,000 tokens qua YaRN scaling.
- Dung lượng đĩa: 55.6 GB bản full, 16.8 GB bản Q4_K_M — bản quantize chạy được trên một card consumer high-end.
Why it matters
Trong hai năm gần đây, cuộc đua mô hình thường là: tham số nhiều hơn → capability cao hơn. Qwen3.6-27B phá nhịp đó trên một mảng cụ thể — agentic coding. Đây là mảng quan trọng nhất với lập trình viên hiện tại (SWE-bench, Terminal-Bench đều mô phỏng task repo thực tế). Một mô hình 27B chạy được trên laptop/1 GPU, mã nguồn mở hoàn toàn, thắng chính phiên bản 397B của cùng đội — đó là tín hiệu rằng chất lượng data + kiến trúc + post-training đang trọng hơn thô tham số.
Technical facts
Kiến trúc là hybrid, xếp thành 16 khối lặp 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN), tổng cộng 64 lớp, hidden dim 5,120, FFN intermediate 17,408. Vision encoder được hợp nhất vào backbone.
Benchmark (Qwen official):
| Benchmark | Qwen3.6-27B (dense) | Qwen3.5-397B-A17B (MoE) |
|---|---|---|
| SWE-bench Verified | 77.2 | 76.2 |
| SWE-bench Pro | 53.5 | 50.9 |
| Terminal-Bench 2.0 | 59.3 | 52.5 |
| SkillsBench | 48.2 | 30.0 |
| MMLU-Pro | 86.2 | — |
| AIME 2026 | 94.1 | — |
| VideoMME | 87.7 | — |
Simon Willison đã test bản quantize local: ~25 tokens/giây, xử lý tốt context 65,536 tokens, sinh SVG phức tạp (con bồ nông đạp xe) với chất lượng "outstanding" cho một mô hình 16.8 GB chạy offline.
Comparison
So với bản flagship cũ Qwen3.5-397B-A17B (MoE, 17B active params, 807 GB trên đĩa), Qwen3.6-27B nhỏ hơn ~15× nhưng tốt hơn trên mọi benchmark agentic coding đã public. Đổi lại, mô hình 397B vẫn có ưu thế trên một số task general reasoning thuần tuý và đa ngôn ngữ hiếm. Nhưng với coder và team xây dựng agent, Qwen3.6-27B gần như là default mới cho open-weight stack.
So với cùng phân khúc dense model open-source, 27B này đặt áp lực trực tiếp lên các lựa chọn như DeepSeek-V2-Lite, Llama 3 variants, và các coding-specialized model đang ở tầm 30–70B — vì nó chạy trên phần cứng tương đương nhưng benchmark cao hơn.
Use cases
- Local coding assistant: bản Q4 ~17 GB chạy trên 1 card 24 GB VRAM, không cần cloud.
- Agentic workflow: repo navigation, multi-file refactor, shell command — các task kiểu SWE-bench và Terminal-Bench.
- Multimodal agents: đọc screenshot, hiểu video demo, thao tác trên UI bằng thị giác.
- Production privacy-sensitive: triển khai on-prem, dữ liệu không rời hạ tầng — phù hợp fintech, healthcare, enterprise.
- Fine-tune base: Apache 2.0 nghĩa là làm verticalized model (SQL-only, Go-only, security-review-only) thoải mái.
- Long-context code review: 262K native đủ để nhét cả repo con vào một prompt.
Limitations & pricing
Pricing: miễn phí — tải về từ Hugging Face, tự chạy. Release post không công bố giá API hosted chính thức; ai muốn hosted có thể dùng các inference provider third-party.
Hardware cho context đầy đủ: để chạy 262K context cần 8 GPU tensor-parallel theo khuyến nghị; bản Q4 context ngắn chạy được trên 1 GPU 24 GB.
Không phải SOTA toàn diện: thông điệp là efficiency trên coding/agentic, không phải "đánh bại GPT-5/Claude trên mọi thứ". Trên general reasoning nhẹ nhàng và đa ngôn ngữ rộng, các frontier đóng vẫn dẫn.
Thinking mode ăn token: các block <think> tăng chi phí; khi chat nhanh nên tắt.
What's next
Cộng đồng đang chờ các biến thể Qwen3.6 lớn hơn (dense và MoE), cũng như hosted API tier chính thức từ Alibaba Cloud. Fine-tune và merge đã xuất hiện trên Hugging Face trong vòng 24h đầu — ai cần một coding model vertical chuyên sâu nên bắt đầu thử ngay.
Nguồn: qwen.ai/research, Hugging Face model card, Simon Willison, QwenLM/Qwen3.6 GitHub.

