Qwen3.6-35B-A3B: MoE 3B-active đánh bại dense 27B trên coding benchmark

TL;DR

Qwen3.6-35B-A3B là model open-weight mới nhất của Alibaba Qwen team, giữ nguyên kiến trúc MoE 35B total / 3B active của phiên bản 3.5 tiền nhiệm nhưng nạp toàn bộ hệ thống post-training của flagship Qwen3.6-Plus (long-horizon Agent RL, multi-turn tool use, data-mix coding tăng cường). Kết quả: vượt dense Qwen3.5-27B trên nhiều coding benchmark chủ chốt dù chỉ active 3B params, và cải thiện đột phá so với tiền nhiệm trực tiếp Qwen3.5-35B-A3B ở agentic coding và reasoning. License Apache 2.0, context native 262K tokens, chạy được trên GPU consumer 24GB sau quantization.

Có gì mới

Thông điệp cốt lõi từ Alibaba Qwen team trên X khá gọn: cùng bộ khung Gated DeltaNet + sparse MoE với bản 3.5, nhưng bước nhảy chất lượng nằm ở hai thứ — post-training Agent RL (long-horizon multi-turn task) và data-mix ưu tiên coding / frontend / repo-level. Đây là cùng stack đưa Qwen3.6-Plus lên tier frontier agentic coding, giờ được chuyển xuống tier open-weight 3B-active.

Vượt dense Qwen3.5-27B trên several key coding benchmark — dù 27B dense chạy full params mỗi token, nặng ~9× compute
Dramatically surpasses tiền nhiệm Qwen3.5-35B-A3B (phát hành 24/02/2026) ở agentic coding và reasoning
Vẫn giữ 262,144 tokens native context, extensible tới ~1M với YaRN scaling
License Apache 2.0 — download trực tiếp từ HuggingFace, self-host thoải mái

Tại sao quan trọng

Trong thời Qwen3.5, khi chọn mid-tier open thì có một trade-off kinh điển: MoE 35B-A3B nhanh nhưng dense 27B thông minh hơn ở coding vì active toàn bộ 27B params. Benchmark code của MoE tiền nhiệm thua 27B ở vài metric (ví dụ một baseline coding chấm 16.8 so với 33.4 của 27B). Developer muốn coding assistant local thường quay về dense.

Qwen3.6-35B-A3B đảo chiều cục diện đó. Khi một model 3B active vượt 27B active trên chính mảng code — mảng mà trước giờ được coi là "dense territory" — nó chứng minh quan điểm Alibaba nhấn mạnh suốt series 3.5: architecture quality + post-training quality > raw scale. Hệ quả thực tế: indie dev mua 1 RTX 4090 24GB chạy được agentic coding model ngon hơn dense 27B, tốc độ 60–100+ tok/s thay vì 15–25 tok/s, không gửi code proprietary ra API.

Technical facts

Thông số kiến trúc (kế thừa từ Qwen3.5-35B-A3B, phần lõi Qwen3.6 giữ nguyên để tương thích):

Property	Value
Total parameters	35B
Active parameters	3B
Layers	40
Hidden dim	2048
Total experts (MoE)	256
Activated experts per token	8 routed + 1 shared
Backbone	Gated DeltaNet + Gated Attention + sparse MoE
Context (native)	262,144 tokens
Context (extended, YaRN)	~1,010,000 tokens
Languages	201
Vocab	248,320
License	Apache 2.0

Baseline benchmark của phiên bản 3.5-35B-A3B (Qwen3.6-35B-A3B cam kết vượt trên code và reasoning):

Benchmark	Qwen3.5-35B-A3B
MMLU-Pro	85.3
MMLU-Redux	93.3
GPQA Diamond	84.2
SWE-bench Verified	69.2
LiveCodeBench v6	74.6
Terminal-Bench 2.0	40.5
IFEval	91.9

Qwen3.6-35B-A3B chưa công bố full bảng chính thức, nhưng announcement khẳng định cả hai trục — vượt dense 27B trên coding key metrics, và dramatically surpasses 3.5-A3B ở agentic + reasoning.

So sánh trong hệ Qwen

Model	Active / Total	Context	Availability	Tier
Qwen3.5-27B	27B / 27B (dense)	256K	Open (Apache 2.0)	Mid dense
Qwen3.5-35B-A3B	3B / 35B (MoE)	262K	Open (Apache 2.0)	Mid MoE
Qwen3.6-35B-A3B	3B / 35B (MoE)	262K (→1M)	Open (Apache 2.0)	Mid MoE, 3.6 post-training
Qwen3.6-Plus	n/a (flagship)	1M default	API-only	Frontier

Điểm thú vị: 3.6-35B-A3B không cố chơi cùng sân với 3.6-Plus flagship, mà ép dense 27B phải chứng minh còn đáng tồn tại ở tier open-weight hay không. Với agent RL và tool-use reliability tăng, cộng throughput gấp 4× trên GPU consumer, lý do giữ dense 27B cho use case coding càng mỏng.

Use cases

Local coding assistant — Cline, Qwen Code, Claude Code (BYOK) chạy model open trên 1 GPU 24GB. Không gửi source code proprietary ra API
Agentic coding product — xây dựng AI pair-programmer, repo-level refactor agent, frontend generator. Post-training Agent RL làm tool-calling phần lớn reliable hơn bản 3.5
Enterprise on-prem LLM — compliance-heavy org (legal, medical, fintech) dùng 262K context cho repo-level analysis mà không đưa code ra ngoài firewall
Fine-tuning / distillation — Apache 2.0 cho phép domain-adapt cho niche. Đã có ecosystem GGUF / FP8 / uncensor / reasoning-distilled sẵn từ community
Frontend-heavy workflow — Qwen series từ lâu mạnh ở web design, SVG, data viz; 3.6 nạp thêm QwenWebBench-style training cover 7 categories bilingual EN/CN

Limitations & pricing

Hardware floor: tối thiểu ~20GB VRAM cho quant Q4_K_M (đủ chạy). Khuyến nghị 24GB+ để có headroom và context dài
Context 1M qua YaRN: tốn RAM/VRAM đáng kể, KV cache phình nhanh — với 99% use case, native 262K đã thừa
Không thay thế flagship: benchmark tuyệt đối vẫn thua Qwen3.6-Plus, GPT-5.x, Claude Opus 4.6 ở task phức tạp nhất. Đây là best-in-class mid open-weight, không phải frontier killer
Pricing: self-host hoàn toàn free (chi phí GPU + điện). API qua Alibaba Cloud Model Studio và OpenRouter theo tier tương tự 3.5-A3B (tham khảo giá tương đương open MoE khác trên market — phổ biến $0.15–0.60 per 1M tokens theo LLM-stats)

What's next

Theo pattern release của Qwen series 3.5, khả năng cao Alibaba sẽ tiếp tục mở các size 3.6 open-weight khác: small tier (0.8B, 2B, 4B, 9B cho edge / mobile), mid dense (27B) và large MoE (122B-A10B, 397B-A17B). Một Qwen3.6-Coder dedicated cho coding-only cũng có thể ra sau — pattern đã lặp với Qwen3-Coder trước đó.

Hành động đề xuất nếu bạn đang làm coding product: benchmark 3.6-35B-A3B trực tiếp trên workflow của bạn (repo refactor, frontend gen, bug-hunting agent) trước khi commit stack dense. Với throughput + agent RL cải thiện, cost per task có thể giảm đáng kể.

Nguồn: Alibaba Qwen trên X, HuggingFace model card tiền nhiệm, Alibaba Cloud blog về Qwen3.6-Plus, VentureBeat.

Qwen3.6-35B-A3B: MoE 3B-active đánh bại dense 27B trên coding benchmark

TL;DR

Có gì mới

Tại sao quan trọng

Technical facts

So sánh trong hệ Qwen

Use cases

Limitations & pricing

What's next

Bài liên quan

Claude Opus 4.7 ra mắt: Anthropic muốn bạn giao việc khó nhất rồi đi chơi

Qwen 3.6 về open-source trên Ollama: một lệnh là chạy Claude Code local, zero API cost

Gemma 4 26B A4B và 31B đã có mặt trên Mac qua LocallyAI: hai model open-source mạnh nhất chạy offline trên Apple Silicon