Qwen3.6-27B ra mắt: mô hình dense đa phương thức mạnh hơn cả bản MoE 35B

TL;DR

Ngày 22/04/2026, Alibaba chính thức open-source Qwen3.6-27B trên Hugging Face và ModelScope dưới giấy phép Apache 2.0. Đây là bản dense 27B đi kèm của dòng Qwen3.6, ra mắt chỉ 6 ngày sau bản MoE 35B-A3B. Điểm đáng chú ý: mô hình natively multimodal — vision encoder tích hợp sẵn trong checkpoint, hỗ trợ cả thinking và non-thinking mode, xử lý ảnh/video song song với text. Kết quả benchmark: 27B dense vượt 35B-A3B trên gần như mọi bài kiểm tra, đặc biệt SWE-bench Verified 77.2 và AIME 2026 94.1.

Qwen3.6-27B benchmark scores vs 35B-A3B and Qwen3.5-27B

What's new

Qwen3.6-27B là bản dense cùng họ với Qwen3.6-35B-A3B (MoE, 3B active params). Cả hai chia sẻ cùng một paradigm: một checkpoint duy nhất, bật/tắt thinking mode tuỳ task, và xử lý multimodal (text + image + video) ngay trong kiến trúc gốc thay vì bolt-on vision adapter.

Kiến trúc hybrid: 64 layer, hidden dim 5,120, xen kẽ Gated DeltaNet (linear attention) với Gated Attention truyền thống. Layout 16 × (3 × DeltaNet + 1 × Full attention) giúp cân bằng tốc độ và chất lượng.
Context 262K native, mở rộng đến 1M token qua YaRN — vừa đủ để đọc nguyên một codebase hoặc xem full video dài.
Thinking Preservation (tính năng mới): giữ lại reasoning trace từ các lượt chat trước, tái dùng trong multi-turn agent workflow, tiết kiệm token và duy trì chain-of-thought mạch lạc.
Vision + Video: vision encoder cho phép input ảnh/video (fps sampling cấu hình được), không cần external VLM adapter.

Why it matters

Từ trước đến nay dòng Qwen-VL và dòng Qwen-text là hai nhánh riêng, buộc developer chọn giữa "mô hình text mạnh" hoặc "mô hình multimodal khá". Qwen3.6 xoá bỏ lựa chọn đó: một checkpoint duy nhất cover cả agentic coding (SWE-bench top-tier) lẫn visual reasoning (MMMU 82.9, MathVista 87.4).

Điểm đặc biệt là 27B dense beat 35B-A3B ở đa số benchmark. Điều này ngược với xu hướng MoE "to hơn luôn tốt hơn": với dense 27B, toàn bộ tham số active mỗi bước inference, trade-off memory lấy quality. Với team có GPU đủ VRAM, 27B dense là lựa chọn tốt hơn hẳn.

Technical facts

Thông số	Qwen3.6-27B	Qwen3.6-35B-A3B
Kiểu kiến trúc	Dense	MoE (3B active)
Total params	27B	35B
Hidden dim / Layers	5,120 / 64	5,120 / 64
Context native	262,144	262,144
Context tối đa (YaRN)	~1,010,000	~1,010,000
Modalities	text + image + video	text + image + video
Thinking mode	✓ (default)	✓ (default)
Preserve Thinking	✓	✓
License	Apache 2.0	Apache 2.0

Recommended sampling cho thinking mode: temperature=1.0, top_p=0.95, top_k=20. Cho precise coding: hạ temperature=0.6. Cho non-thinking instruct: temperature=0.7, top_p=0.8, presence_penalty=1.5.

Comparison

Dưới đây là đối đầu trực tiếp trên các benchmark đại diện (số càng cao càng tốt):

Benchmark	Qwen3.6-27B	Qwen3.6-35B-A3B	Qwen3.5-27B
SWE-bench Verified	77.2	73.4	75.0
SWE-bench Pro	53.5	49.5	51.2
Terminal-Bench 2.0	59.3	51.5	41.6
SkillsBench Avg5	48.2	28.7	27.2
LiveCodeBench v6	83.9	80.4	80.7
AIME 2026	94.1	92.7	92.6
MMLU-Pro	86.2	85.2	86.1
GPQA Diamond	87.8	86.0	85.5
MMMU (VLM)	82.9	81.7	—
VideoMME (w/ sub)	87.7	86.6	—
AndroidWorld	70.3	—	—

Điểm gây sốc nhất: SkillsBench Avg5 48.2 vs 28.7 — chênh gần 20 điểm. SkillsBench đo năng lực agent giải task đa bước phức tạp, nên con số này cho thấy 27B dense khá vượt trội về agentic capability khi full params được activate. Terminal-Bench 2.0 cũng nhảy từ 41.6 (Qwen3.5) lên 59.3 — generation leap thực sự trong một version bump.

Use cases

Agentic coding assistant: SWE-bench 77.2 + Terminal-Bench 59.3 đưa mô hình vào nhóm có thể tự fix bug repo-level và điều khiển shell/CLI.
GUI / mobile automation: AndroidWorld 70.3 cộng vision encoder → agent tương tác màn hình Android, tự động hoá thao tác app.
Visual coding: input screenshot UI → generate functional frontend code (tính năng được Qwen team nhấn mạnh cho cả dòng 3.6).
Document & video reasoning: context 262K + video input → phân tích báo cáo tài chính dài, đọc bản thiết kế, tóm tắt meeting recording, parsing invoice.
Self-host cho enterprise: Apache 2.0 cho phép thương mại hoá. 27B dense chạy được trên 2×A100 80GB BF16, hoặc 1×H100 với quantization FP8, đủ cho team tự host trong môi trường private data.

Limitations & pricing

Memory overhead: dense 27B luôn activate toàn bộ tham số → VRAM nhiều hơn 35B-A3B (chỉ activate 3B). Khoảng 54GB BF16, 27GB FP8.
Context tối thiểu: team khuyến nghị giữ ít nhất 128K context khi bật thinking mode để tránh reasoning bị cắt giữa chừng.
Preserve thinking token cost: tính năng mới giữ reasoning trace qua nhiều lượt có thể inflate tổng token, cần theo dõi khi chạy agent chain dài.
Giá API: self-host miễn phí (Apache 2.0). Giá qua DashScope, OpenRouter hay Together AI chưa công bố ngày ra mắt; các bên này thường list trong 24–48h.

What's next

Qwen đã hint về các variant nhỏ hơn (khả năng 4B/8B/14B) trong dòng 3.6, cũng như một nhánh Qwen3.6-VL chuyên biệt cho vision. Hệ sinh thái inference day-1: vLLM, SGLang, Unsloth, MLX và Ollama đều có support. Đồng thời với Qwen3.6-Plus (bản closed flagship, 1M context) đã ra mắt đầu tháng 4/2026, Qwen team đang đẩy mạnh hướng agentic coding + multimodal reasoning thành trụ chính của thế hệ 3.6.

Nguồn: HuggingFace Qwen3.6-27B, QwenLM/Qwen3.6 GitHub, @Alibaba_Qwen, MarkTechPost.

Qwen3.6-27B ra mắt: mô hình dense đa phương thức mạnh hơn cả bản MoE 35B

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork