TL;DR

Qwen3.6-35B-A3B là model open-weight mới nhất của Alibaba Qwen team, giữ nguyên kiến trúc MoE 35B total / 3B active của phiên bản 3.5 tiền nhiệm nhưng nạp toàn bộ hệ thống post-training của flagship Qwen3.6-Plus (long-horizon Agent RL, multi-turn tool use, data-mix coding tăng cường). Kết quả: vượt dense Qwen3.5-27B trên nhiều coding benchmark chủ chốt dù chỉ active 3B params, và cải thiện đột phá so với tiền nhiệm trực tiếp Qwen3.5-35B-A3B ở agentic coding và reasoning. License Apache 2.0, context native 262K tokens, chạy được trên GPU consumer 24GB sau quantization.

Có gì mới

Thông điệp cốt lõi từ Alibaba Qwen team trên X khá gọn: cùng bộ khung Gated DeltaNet + sparse MoE với bản 3.5, nhưng bước nhảy chất lượng nằm ở hai thứ — post-training Agent RL (long-horizon multi-turn task) và data-mix ưu tiên coding / frontend / repo-level. Đây là cùng stack đưa Qwen3.6-Plus lên tier frontier agentic coding, giờ được chuyển xuống tier open-weight 3B-active.

  • Vượt dense Qwen3.5-27B trên several key coding benchmark — dù 27B dense chạy full params mỗi token, nặng ~9× compute
  • Dramatically surpasses tiền nhiệm Qwen3.5-35B-A3B (phát hành 24/02/2026) ở agentic coding và reasoning
  • Vẫn giữ 262,144 tokens native context, extensible tới ~1M với YaRN scaling
  • License Apache 2.0 — download trực tiếp từ HuggingFace, self-host thoải mái

Tại sao quan trọng

Trong thời Qwen3.5, khi chọn mid-tier open thì có một trade-off kinh điển: MoE 35B-A3B nhanh nhưng dense 27B thông minh hơn ở coding vì active toàn bộ 27B params. Benchmark code của MoE tiền nhiệm thua 27B ở vài metric (ví dụ một baseline coding chấm 16.8 so với 33.4 của 27B). Developer muốn coding assistant local thường quay về dense.

Qwen3.6-35B-A3B đảo chiều cục diện đó. Khi một model 3B active vượt 27B active trên chính mảng code — mảng mà trước giờ được coi là "dense territory" — nó chứng minh quan điểm Alibaba nhấn mạnh suốt series 3.5: architecture quality + post-training quality > raw scale. Hệ quả thực tế: indie dev mua 1 RTX 4090 24GB chạy được agentic coding model ngon hơn dense 27B, tốc độ 60–100+ tok/s thay vì 15–25 tok/s, không gửi code proprietary ra API.

Technical facts

Thông số kiến trúc (kế thừa từ Qwen3.5-35B-A3B, phần lõi Qwen3.6 giữ nguyên để tương thích):

PropertyValue
Total parameters35B
Active parameters3B
Layers40
Hidden dim2048
Total experts (MoE)256
Activated experts per token8 routed + 1 shared
BackboneGated DeltaNet + Gated Attention + sparse MoE
Context (native)262,144 tokens
Context (extended, YaRN)~1,010,000 tokens
Languages201
Vocab248,320
LicenseApache 2.0

Baseline benchmark của phiên bản 3.5-35B-A3B (Qwen3.6-35B-A3B cam kết vượt trên code và reasoning):

BenchmarkQwen3.5-35B-A3B
MMLU-Pro85.3
MMLU-Redux93.3
GPQA Diamond84.2
SWE-bench Verified69.2
LiveCodeBench v674.6
Terminal-Bench 2.040.5
IFEval91.9

Qwen3.6-35B-A3B chưa công bố full bảng chính thức, nhưng announcement khẳng định cả hai trục — vượt dense 27B trên coding key metrics, và dramatically surpasses 3.5-A3B ở agentic + reasoning.

So sánh trong hệ Qwen

ModelActive / TotalContextAvailabilityTier
Qwen3.5-27B27B / 27B (dense)256KOpen (Apache 2.0)Mid dense
Qwen3.5-35B-A3B3B / 35B (MoE)262KOpen (Apache 2.0)Mid MoE
Qwen3.6-35B-A3B3B / 35B (MoE)262K (→1M)Open (Apache 2.0)Mid MoE, 3.6 post-training
Qwen3.6-Plusn/a (flagship)1M defaultAPI-onlyFrontier

Điểm thú vị: 3.6-35B-A3B không cố chơi cùng sân với 3.6-Plus flagship, mà ép dense 27B phải chứng minh còn đáng tồn tại ở tier open-weight hay không. Với agent RL và tool-use reliability tăng, cộng throughput gấp 4× trên GPU consumer, lý do giữ dense 27B cho use case coding càng mỏng.

Use cases

  1. Local coding assistant — Cline, Qwen Code, Claude Code (BYOK) chạy model open trên 1 GPU 24GB. Không gửi source code proprietary ra API
  2. Agentic coding product — xây dựng AI pair-programmer, repo-level refactor agent, frontend generator. Post-training Agent RL làm tool-calling phần lớn reliable hơn bản 3.5
  3. Enterprise on-prem LLM — compliance-heavy org (legal, medical, fintech) dùng 262K context cho repo-level analysis mà không đưa code ra ngoài firewall
  4. Fine-tuning / distillation — Apache 2.0 cho phép domain-adapt cho niche. Đã có ecosystem GGUF / FP8 / uncensor / reasoning-distilled sẵn từ community
  5. Frontend-heavy workflow — Qwen series từ lâu mạnh ở web design, SVG, data viz; 3.6 nạp thêm QwenWebBench-style training cover 7 categories bilingual EN/CN

Limitations & pricing

  • Hardware floor: tối thiểu ~20GB VRAM cho quant Q4_K_M (đủ chạy). Khuyến nghị 24GB+ để có headroom và context dài
  • Context 1M qua YaRN: tốn RAM/VRAM đáng kể, KV cache phình nhanh — với 99% use case, native 262K đã thừa
  • Không thay thế flagship: benchmark tuyệt đối vẫn thua Qwen3.6-Plus, GPT-5.x, Claude Opus 4.6 ở task phức tạp nhất. Đây là best-in-class mid open-weight, không phải frontier killer
  • Pricing: self-host hoàn toàn free (chi phí GPU + điện). API qua Alibaba Cloud Model Studio và OpenRouter theo tier tương tự 3.5-A3B (tham khảo giá tương đương open MoE khác trên market — phổ biến $0.15–0.60 per 1M tokens theo LLM-stats)

What's next

Theo pattern release của Qwen series 3.5, khả năng cao Alibaba sẽ tiếp tục mở các size 3.6 open-weight khác: small tier (0.8B, 2B, 4B, 9B cho edge / mobile), mid dense (27B) và large MoE (122B-A10B, 397B-A17B). Một Qwen3.6-Coder dedicated cho coding-only cũng có thể ra sau — pattern đã lặp với Qwen3-Coder trước đó.

Hành động đề xuất nếu bạn đang làm coding product: benchmark 3.6-35B-A3B trực tiếp trên workflow của bạn (repo refactor, frontend gen, bug-hunting agent) trước khi commit stack dense. Với throughput + agent RL cải thiện, cost per task có thể giảm đáng kể.

Nguồn: Alibaba Qwen trên X, HuggingFace model card tiền nhiệm, Alibaba Cloud blog về Qwen3.6-Plus, VentureBeat.