Qwen3.6-27B: Mô hình dense 27B đánh bại MoE 397B trên agentic coding

TL;DR

Ngày 22/04/2026, đội Qwen (Alibaba) phát hành Qwen3.6-27B — dense model 27B tham số, open-weight, Apache 2.0, multimodal, native 262K context (extend lên 1M qua YaRN). Đáng chú ý: mô hình này vượt qua flagship cũ Qwen3.5-397B-A17B (MoE) trên hầu hết benchmark coding, và chỉ kém Claude 4.5 Opus 3.7 điểm trên SWE-bench Verified (77.2 vs 80.9). Chạy được trên GPU 18GB ở bản Q4, zero API fee.

Qwen3.6-27B benchmark scores vs Claude 4.5 Opus

Có gì mới

Qwen3.6-27B là dense model đầu tiên trong gia đình Qwen3.6 — khác với tiền nhiệm Qwen3.5-397B dùng kiến trúc Mixture-of-Experts. Toàn bộ 27B tham số active trên mỗi lần inference, giúp routing đơn giản hơn và latency ổn định hơn cho agentic workflow.

Dense 27B, 64 layers, hidden dim 5,120
Hybrid attention: tỉ lệ 3:1 giữa Gated DeltaNet (linear attention) và Gated Attention chuẩn
Context native 262,144 tokens, mở rộng 1,010,000 qua YaRN
Multimodal: vision encoder built-in, input ảnh + text
Thinking Preservation: cờ preserve_thinking: True giữ lại reasoning trace giữa các turn, cắt redundant reasoning, tận dụng KV cache
Multi-Token Prediction cho speculative decoding
Apache 2.0

Vì sao quan trọng

Trước đây để đạt flagship-level coding phải dùng Claude Opus (API) hoặc MoE hàng trăm tỉ tham số (Qwen3.5-397B cần 807GB disk, infra multi-node). Qwen3.6-27B nén câu chuyện đó xuống 55.6GB BF16 hoặc 16.8GB Q4_K_M — chạy được trên một card RTX 4090 đơn lẻ. Với dev có codebase nhạy cảm hoặc team muốn thoát API cost, đây là lần đầu tiên open model thật sự là drop-in replacement cho Claude Code ở tác vụ coding hàng ngày.

Technical facts

Kiến trúc lõi: 16 block lặp lại pattern 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN). Linear attention gánh đa số chi phí, attention chuẩn xen vào để giữ precision ở long context.

Property	Qwen3.6-27B	Qwen3.5-397B-A17B (prev flagship)
Architecture	Dense	MoE (17B active / 397B total)
Active params	27B	17B
Disk size (BF16)	55.6 GB	807 GB
Native context	262,144	262,144
Multimodal	Yes	No
License	Apache 2.0	Apache 2.0

Full benchmark breakdown across coding, reasoning, vision tasks

Benchmark khác đáng chú ý: GPQA Diamond 87.8, AIME26 94.1, LiveCodeBench v6 83.9, VideoMME 87.7, AndroidWorld 70.3. Simon Willison test local qua llama.cpp: ~24-25 tokens/s generation, 54 tokens/s prompt reading trên bản GGUF 16.8GB.

So sánh Claude 4.5 Opus & Qwen3.5-397B

Benchmark	Qwen3.6-27B	Qwen3.5-397B	Claude 4.5 Opus
SWE-bench Verified	77.2	~50-60	80.9
SWE-bench Pro	53.5	50.9	—
Terminal-Bench 2.0	59.3	—	59.3
SkillsBench Avg5	48.2	30.0	—
QwenWebBench (Elo)	1487	1397	—
NL2Repo	36.2	27.3	—

Headline: 27B dense ngang bằng Claude 4.5 Opus trên Terminal-Bench 2.0 và vượt flagship MoE 397B tiền nhiệm dù có ít hơn 14.8× tham số. SkillsBench cải thiện tương đối 77% so với Qwen3.5-27B.

Use cases thực tế

Self-hosted coding agent: plug vào Claude Code, OpenCode, Cursor qua local relay OpenAI-compatible — zero API fee
Codebase nhạy cảm: phân tích repo proprietary mà không gửi qua cloud
Long-context repo reasoning: đọc toàn bộ monorepo trong 1M token context
Multi-turn agentic workflow: Thinking Preservation cắt overhead giữa các step
Frontend dev: Qwen team nhấn mạnh mảng UI code — benchmark QwenWebBench leader board đạt 1487 Elo
Production serving: SGLang hoặc vLLM cho multi-user team

Quantization options and hardware requirements

Limitations & pricing

Giá: free self-host (Apache 2.0). API optional qua Alibaba DashScope và OpenRouter
Vẫn kém Claude Opus 4.6/4.7 trên SWE-bench Verified
Chưa support Ollama — file mmproj vision chưa tương thích
CUDA 13.2 bị bug — sinh output gibberish, cần tránh version này
Team Qwen khuyến cáo giữ context ≥128K để preserve thinking capability
Multi-GPU (8 GPU tensor parallel) được khuyến nghị cho bản BF16 full
Third-party benchmark verify trên production coding thật sự còn hạn chế (mới ra 1-2 ngày)

Điều gì tiếp theo

Qwen team đồng thời phát hành bản MoE anh em Qwen3.6-35B-A3B cho agentic coding với 3B active params — chạy nhẹ hơn nữa. Roadmap ngắn hạn là thêm variants trong gia đình 3.6 và mở rộng vision + agentic capability. Với license Apache 2.0, cộng đồng mong chờ fine-tune chuyên ngành (med, finance, legal coding) xuất hiện nhanh trong vài tuần tới.

Nguồn: Qwen blog, Hugging Face, Simon Willison, MarkTechPost.

Qwen3.6-27B: Mô hình dense 27B đánh bại MoE 397B trên agentic coding

TL;DR

Có gì mới

Vì sao quan trọng

Technical facts

So sánh Claude 4.5 Opus & Qwen3.5-397B

Use cases thực tế

Limitations & pricing

Điều gì tiếp theo

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7