TL;DR

Ngày 22/04/2026, Alibaba chính thức open-source Qwen3.6-27B trên Hugging Face và ModelScope dưới giấy phép Apache 2.0. Đây là bản dense 27B đi kèm của dòng Qwen3.6, ra mắt chỉ 6 ngày sau bản MoE 35B-A3B. Điểm đáng chú ý: mô hình natively multimodal — vision encoder tích hợp sẵn trong checkpoint, hỗ trợ cả thinking và non-thinking mode, xử lý ảnh/video song song với text. Kết quả benchmark: 27B dense vượt 35B-A3B trên gần như mọi bài kiểm tra, đặc biệt SWE-bench Verified 77.2 và AIME 2026 94.1.

Qwen3.6-27B benchmark scores vs 35B-A3B and Qwen3.5-27B

What's new

Qwen3.6-27B là bản dense cùng họ với Qwen3.6-35B-A3B (MoE, 3B active params). Cả hai chia sẻ cùng một paradigm: một checkpoint duy nhất, bật/tắt thinking mode tuỳ task, và xử lý multimodal (text + image + video) ngay trong kiến trúc gốc thay vì bolt-on vision adapter.

  • Kiến trúc hybrid: 64 layer, hidden dim 5,120, xen kẽ Gated DeltaNet (linear attention) với Gated Attention truyền thống. Layout 16 × (3 × DeltaNet + 1 × Full attention) giúp cân bằng tốc độ và chất lượng.
  • Context 262K native, mở rộng đến 1M token qua YaRN — vừa đủ để đọc nguyên một codebase hoặc xem full video dài.
  • Thinking Preservation (tính năng mới): giữ lại reasoning trace từ các lượt chat trước, tái dùng trong multi-turn agent workflow, tiết kiệm token và duy trì chain-of-thought mạch lạc.
  • Vision + Video: vision encoder cho phép input ảnh/video (fps sampling cấu hình được), không cần external VLM adapter.

Why it matters

Từ trước đến nay dòng Qwen-VL và dòng Qwen-text là hai nhánh riêng, buộc developer chọn giữa "mô hình text mạnh" hoặc "mô hình multimodal khá". Qwen3.6 xoá bỏ lựa chọn đó: một checkpoint duy nhất cover cả agentic coding (SWE-bench top-tier) lẫn visual reasoning (MMMU 82.9, MathVista 87.4).

Điểm đặc biệt là 27B dense beat 35B-A3B ở đa số benchmark. Điều này ngược với xu hướng MoE "to hơn luôn tốt hơn": với dense 27B, toàn bộ tham số active mỗi bước inference, trade-off memory lấy quality. Với team có GPU đủ VRAM, 27B dense là lựa chọn tốt hơn hẳn.

Technical facts

Thông sốQwen3.6-27BQwen3.6-35B-A3B
Kiểu kiến trúcDenseMoE (3B active)
Total params27B35B
Hidden dim / Layers5,120 / 645,120 / 64
Context native262,144262,144
Context tối đa (YaRN)~1,010,000~1,010,000
Modalitiestext + image + videotext + image + video
Thinking mode✓ (default)✓ (default)
Preserve Thinking
LicenseApache 2.0Apache 2.0

Recommended sampling cho thinking mode: temperature=1.0, top_p=0.95, top_k=20. Cho precise coding: hạ temperature=0.6. Cho non-thinking instruct: temperature=0.7, top_p=0.8, presence_penalty=1.5.

Comparison

Dưới đây là đối đầu trực tiếp trên các benchmark đại diện (số càng cao càng tốt):

BenchmarkQwen3.6-27BQwen3.6-35B-A3BQwen3.5-27B
SWE-bench Verified77.273.475.0
SWE-bench Pro53.549.551.2
Terminal-Bench 2.059.351.541.6
SkillsBench Avg548.228.727.2
LiveCodeBench v683.980.480.7
AIME 202694.192.792.6
MMLU-Pro86.285.286.1
GPQA Diamond87.886.085.5
MMMU (VLM)82.981.7
VideoMME (w/ sub)87.786.6
AndroidWorld70.3

Điểm gây sốc nhất: SkillsBench Avg5 48.2 vs 28.7 — chênh gần 20 điểm. SkillsBench đo năng lực agent giải task đa bước phức tạp, nên con số này cho thấy 27B dense khá vượt trội về agentic capability khi full params được activate. Terminal-Bench 2.0 cũng nhảy từ 41.6 (Qwen3.5) lên 59.3 — generation leap thực sự trong một version bump.

Use cases

  • Agentic coding assistant: SWE-bench 77.2 + Terminal-Bench 59.3 đưa mô hình vào nhóm có thể tự fix bug repo-level và điều khiển shell/CLI.
  • GUI / mobile automation: AndroidWorld 70.3 cộng vision encoder → agent tương tác màn hình Android, tự động hoá thao tác app.
  • Visual coding: input screenshot UI → generate functional frontend code (tính năng được Qwen team nhấn mạnh cho cả dòng 3.6).
  • Document & video reasoning: context 262K + video input → phân tích báo cáo tài chính dài, đọc bản thiết kế, tóm tắt meeting recording, parsing invoice.
  • Self-host cho enterprise: Apache 2.0 cho phép thương mại hoá. 27B dense chạy được trên 2×A100 80GB BF16, hoặc 1×H100 với quantization FP8, đủ cho team tự host trong môi trường private data.

Limitations & pricing

  • Memory overhead: dense 27B luôn activate toàn bộ tham số → VRAM nhiều hơn 35B-A3B (chỉ activate 3B). Khoảng 54GB BF16, 27GB FP8.
  • Context tối thiểu: team khuyến nghị giữ ít nhất 128K context khi bật thinking mode để tránh reasoning bị cắt giữa chừng.
  • Preserve thinking token cost: tính năng mới giữ reasoning trace qua nhiều lượt có thể inflate tổng token, cần theo dõi khi chạy agent chain dài.
  • Giá API: self-host miễn phí (Apache 2.0). Giá qua DashScope, OpenRouter hay Together AI chưa công bố ngày ra mắt; các bên này thường list trong 24–48h.

What's next

Qwen đã hint về các variant nhỏ hơn (khả năng 4B/8B/14B) trong dòng 3.6, cũng như một nhánh Qwen3.6-VL chuyên biệt cho vision. Hệ sinh thái inference day-1: vLLM, SGLang, Unsloth, MLX và Ollama đều có support. Đồng thời với Qwen3.6-Plus (bản closed flagship, 1M context) đã ra mắt đầu tháng 4/2026, Qwen team đang đẩy mạnh hướng agentic coding + multimodal reasoning thành trụ chính của thế hệ 3.6.

Nguồn: HuggingFace Qwen3.6-27B, QwenLM/Qwen3.6 GitHub, @Alibaba_Qwen, MarkTechPost.