Qwen3.6-27B: Mô hình dense 27B đánh bại chính 397B của Qwen trên coding benchmarks

TL;DR

Ngày 22/04/2026, đội Qwen (Alibaba) release Qwen3.6-27B — một mô hình dense 27B open-source, license Apache 2.0. Điểm đáng kể nhất: trên bộ benchmark agentic coding, mô hình 27B này vượt qua chính flagship Qwen3.5-397B-A17B (807 GB trên đĩa) của cùng team. Nhỏ hơn khoảng 15 lần, chạy được local trên 1 GPU 24 GB với bản quantize Q4, và đi kèm cả fast mode lẫn deep reasoning mode. Efficiency đang thực sự bắt đầu thắng size.

What's new

27B dense, không phải MoE — đơn giản, dễ deploy hơn kiến trúc mixture-of-experts.
Apache 2.0 — dùng thương mại thoải mái, fine-tune thoải mái, không có usage gating.
Đa mô-thức: text + ảnh + video qua vision encoder tích hợp.
Hai chế độ suy luận: thinking mode (mặc định, xuất <think>...</think>) cho bài toán khó, và non-thinking / fast mode cho chat tương tác nhanh.
Context 262,144 tokens native, mở rộng tới ~1,010,000 tokens qua YaRN scaling.
Dung lượng đĩa: 55.6 GB bản full, 16.8 GB bản Q4_K_M — bản quantize chạy được trên một card consumer high-end.

Why it matters

Trong hai năm gần đây, cuộc đua mô hình thường là: tham số nhiều hơn → capability cao hơn. Qwen3.6-27B phá nhịp đó trên một mảng cụ thể — agentic coding. Đây là mảng quan trọng nhất với lập trình viên hiện tại (SWE-bench, Terminal-Bench đều mô phỏng task repo thực tế). Một mô hình 27B chạy được trên laptop/1 GPU, mã nguồn mở hoàn toàn, thắng chính phiên bản 397B của cùng đội — đó là tín hiệu rằng chất lượng data + kiến trúc + post-training đang trọng hơn thô tham số.

Technical facts

Kiến trúc là hybrid, xếp thành 16 khối lặp 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN), tổng cộng 64 lớp, hidden dim 5,120, FFN intermediate 17,408. Vision encoder được hợp nhất vào backbone.

Benchmark (Qwen official):

Benchmark	Qwen3.6-27B (dense)	Qwen3.5-397B-A17B (MoE)
SWE-bench Verified	77.2	76.2
SWE-bench Pro	53.5	50.9
Terminal-Bench 2.0	59.3	52.5
SkillsBench	48.2	30.0
MMLU-Pro	86.2	—
AIME 2026	94.1	—
VideoMME	87.7	—

Simon Willison đã test bản quantize local: ~25 tokens/giây, xử lý tốt context 65,536 tokens, sinh SVG phức tạp (con bồ nông đạp xe) với chất lượng "outstanding" cho một mô hình 16.8 GB chạy offline.

Comparison

So với bản flagship cũ Qwen3.5-397B-A17B (MoE, 17B active params, 807 GB trên đĩa), Qwen3.6-27B nhỏ hơn ~15× nhưng tốt hơn trên mọi benchmark agentic coding đã public. Đổi lại, mô hình 397B vẫn có ưu thế trên một số task general reasoning thuần tuý và đa ngôn ngữ hiếm. Nhưng với coder và team xây dựng agent, Qwen3.6-27B gần như là default mới cho open-weight stack.

So với cùng phân khúc dense model open-source, 27B này đặt áp lực trực tiếp lên các lựa chọn như DeepSeek-V2-Lite, Llama 3 variants, và các coding-specialized model đang ở tầm 30–70B — vì nó chạy trên phần cứng tương đương nhưng benchmark cao hơn.

Use cases

Local coding assistant: bản Q4 ~17 GB chạy trên 1 card 24 GB VRAM, không cần cloud.
Agentic workflow: repo navigation, multi-file refactor, shell command — các task kiểu SWE-bench và Terminal-Bench.
Multimodal agents: đọc screenshot, hiểu video demo, thao tác trên UI bằng thị giác.
Production privacy-sensitive: triển khai on-prem, dữ liệu không rời hạ tầng — phù hợp fintech, healthcare, enterprise.
Fine-tune base: Apache 2.0 nghĩa là làm verticalized model (SQL-only, Go-only, security-review-only) thoải mái.
Long-context code review: 262K native đủ để nhét cả repo con vào một prompt.

Limitations & pricing

Pricing: miễn phí — tải về từ Hugging Face, tự chạy. Release post không công bố giá API hosted chính thức; ai muốn hosted có thể dùng các inference provider third-party.

Hardware cho context đầy đủ: để chạy 262K context cần 8 GPU tensor-parallel theo khuyến nghị; bản Q4 context ngắn chạy được trên 1 GPU 24 GB.

Không phải SOTA toàn diện: thông điệp là efficiency trên coding/agentic, không phải "đánh bại GPT-5/Claude trên mọi thứ". Trên general reasoning nhẹ nhàng và đa ngôn ngữ rộng, các frontier đóng vẫn dẫn.

Thinking mode ăn token: các block <think> tăng chi phí; khi chat nhanh nên tắt.

What's next

Cộng đồng đang chờ các biến thể Qwen3.6 lớn hơn (dense và MoE), cũng như hosted API tier chính thức từ Alibaba Cloud. Fine-tune và merge đã xuất hiện trên Hugging Face trong vòng 24h đầu — ai cần một coding model vertical chuyên sâu nên bắt đầu thử ngay.

Nguồn: qwen.ai/research, Hugging Face model card, Simon Willison, QwenLM/Qwen3.6 GitHub.

Qwen3.6-27B: Mô hình dense 27B đánh bại chính 397B của Qwen trên coding benchmarks

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7