Alibaba ra mắt Qwen3.6-35B-A3B: 3B tham số active, Apache 2.0, đè bẹp Gemma 4-31B trên coding benchmark

TL;DR

Ngày 16/4/2026, đội Qwen của Alibaba tung Qwen3.6-35B-A3B lên Hugging Face và ModelScope — một model MoE có 35 tỷ tham số tổng nhưng chỉ 3 tỷ active mỗi inference, mở hoàn toàn dưới giấy phép Apache 2.0. Kết hợp với Qwen3.6 Plus (closed, 1M context) ra trước đó hai tuần, đây là đợt release mạnh nhất của Qwen từ đầu năm 2026 — và nó đang đè Gemma 4-31B dense lẫn Claude Sonnet 4.5 trên nhiều benchmark coding + multimodal.

Qwen3.6 official logo

What's new

Qwen3.6 không chỉ là bản nâng cấp số từ 3.5. Đội Qwen thực sự đổi kiến trúc và training objective để ưu tiên agent workflow thay vì chat tổng quát:

Thinking Preservation: model giữ lại các đoạn <think> xuyên suốt lịch sử hội thoại — trước đây reasoning phải chạy lại từ đầu mỗi lượt. Giảm token dư thừa, tăng KV-cache hit, cải thiện tính nhất quán của agent.
Always-on chain-of-thought: khắc phục bệnh "overthinking" kinh niên của 3.5. Model mặc định suy luận nội bộ rồi mới trả lời, không còn toggle /think vs /nothink.
Computer Use (bản Plus): agent tự mở browser, click menu, điền form, chạy lệnh terminal, đọc output và tiếp tục — không chỉ sinh code như assistant truyền thống.
Visual-to-Code: upload wireframe Figma hoặc screenshot UI, nó sinh thẳng React/Flutter components, CSS, routing khớp design intent.

Why it matters

Cái "3B active" là đòn đánh vào kinh tế hạ tầng. Với dense 31B như Gemma 4 hoặc 70B+ của Llama, bạn trả chi phí inference tương ứng với 100% tham số. MoE sparse của Qwen3.6 chỉ "đánh thức" 8 expert routed + 1 shared mỗi token — nghĩa là chi phí compute xấp xỉ model 3B, nhưng chất lượng gần với model 35B+. Với indie developer hay startup đang vật lộn với API bill, đây là một cú lật bàn.

Thêm nữa, Apache 2.0 nghĩa là không có điều khoản MAU, không bị "custom license" kiểu Qianwen cho bản Plus — bạn self-host thương mại thoải mái, fine-tune thoải mái, tái phân phối thoải mái.

Technical facts

Qwen3.6-35B-A3B benchmark comparison vs Gemma 4 and Qwen3.5

Thuộc tính	Qwen3.6-35B-A3B
Tham số tổng / active	35B / 3B
Kiến trúc	Sparse MoE, 256 experts (8 routed + 1 shared)
Số layer	40 (Gated DeltaNet + Gated Attention xen kẽ)
Context length	262,144 native — mở rộng 1,010,000 qua YaRN
Multimodal	Text + ảnh + video native
License	Apache 2.0
Training objective	Multi-Token Prediction (MTP)

Comparison

Trên benchmark coding, Qwen3.6-35B-A3B chỉ với 3B active đã đánh bại Gemma 4-31B dense (mạnh hơn 10 lần về active params):

Benchmark	Qwen3.6-35B-A3B	Gemma 4-31B	Chênh
SWE-bench Verified	73.4	52.0	+21.4
SWE-bench Multilingual	67.2	51.7	+15.5
SWE-bench Pro	49.5	35.7	+13.8
Terminal-Bench 2.0	51.5	42.9	+8.6
QwenWebBench (Elo)	1397	1197	+200
NL2Repo	29.4	15.5	+13.9

Trên vision-language, bảng của Alibaba cho thấy Qwen3.6 vượt Claude Sonnet 4.5 ở đa số category: RealWorldQA 85.3 vs 70.3 (+15), MLVU 86.2 vs 72.8 (+13.4), CC-OCR 81.9 vs 68.1 (+13.8), MMMU-Pro 75.3 vs 68.4 (+6.9). Về spatial intelligence, Qwen đạt SOTA: RefCOCO 92.0, ODInW13 50.8.

Chỉ điểm duy nhất Qwen thua Gemma 4-31B là MMMU-Pro (75.3 vs 76.9 — chênh 1.6).

Use cases

Enterprise codebase audit: đẩy toàn bộ repo vào 1M-token context (với Plus), yêu cầu quét vulnerability rồi sinh patch theo risk-rank — không cần chunking/RAG workaround.
Legacy migration: model giữ toàn bộ scope project trong context, sinh migration plan file-by-file rồi execute qua tool use.
Automated code review: đọc PR diff với full codebase context, flag issue và post feedback có cấu trúc.
Visual-to-code: designer upload Figma export hoặc whiteboard sketch, model sinh React/Flutter components + CSS + routing khớp design.
Autonomous GUI: agent mở browser, điền form, extract data, chạy terminal command, quan sát output và iterate.

Limitations & pricing

Qwen3.6-35B-A3B (open): free, Apache 2.0. Để phục vụ context tối đa 262K cần tensor parallel qua 8 GPU (SGLang/vLLM). YaRN scaling lên 1M là static — có thể giảm nhẹ chất lượng ở context ngắn. Alibaba khuyến nghị giữ context tối thiểu 128K để không mất khả năng thinking. llama.cpp (GGUF) và MLX (Apple Silicon) đã hỗ trợ cho ai muốn chạy local quantized.

Qwen3.6 Plus (proprietary): OpenRouter preview hiện free tại qwen/qwen3.6-plus-preview:free, nhưng Alibaba thu prompt + completion để train — không gửi code proprietary hay dữ liệu khách hàng. API chính thức Alibaba Cloud: $0.50/1M input + $3.00/1M output. Context 1M, output tối đa 65,536 tokens. Tốc độ 52.9 tok/s, TTFT 2.65s.

What's next

Qwen3.6 Plus sẽ chuyển từ free preview sang paid general availability (timeline chưa công bố). User Guide chính thức đang được chuẩn bị. Alibaba cũng dự kiến open-source QwenClawBench — benchmark agent real-user-distribution họ đang dùng nội bộ.

Các bản 3.6 nhỏ hơn (0.8B–9B kiểu 3.5 small series) chưa được xác nhận. Nếu Alibaba theo đúng cadence năm trước, kỳ vọng có distilled versions trong 1–2 tháng tới.

Nguồn: Qwen/Qwen3.6-35B-A3B on Hugging Face, QwenLM/Qwen3.6 GitHub, OfficeChai benchmark analysis, Artificial Analysis — Qwen3.6 Plus.

Alibaba ra mắt Qwen3.6-35B-A3B: 3B tham số active, Apache 2.0, đè bẹp Gemma 4-31B trên coding benchmark

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Bài liên quan

2-bit Qwen3.6-35B-A3B làm bug hunt cả repo — chạy local trong Unsloth Studio với ~13GB RAM

Claude Opus 4.7 ra mắt: Anthropic muốn bạn giao việc khó nhất rồi đi chơi

Qwen 3.6 về open-source trên Ollama: một lệnh là chạy Claude Code local, zero API cost