TL;DR

  • Qwen3.6-27B release 22/04/2026 trên Hugging Face, ModelScope và Ollama — dense 27B, Apache 2.0.
  • Claim: vượt Qwen3.5-397B-A17B (flagship MoE 807GB) trên mọi major coding benchmark, dù chỉ 1/14 size.
  • Q4_K_M quant ~17GB, chạy local trên RTX 3090/4090/5090, AMD R9700, hoặc Mac M1 Max 32GB.
  • Tích hợp thẳng với Claude Code, OpenCode, OpenClaw, Codex qua command mới ollama launch (Ollama v0.15+, ra 23/01/2026) — không cần env vars, không cần config.
  • Context 256K, multimodal (text + image), có tools và thinking preservation.

What's new — Qwen 3.6 lên Ollama nghĩa là gì

Thứ Ba 22/04/2026, team Qwen (Alibaba) thả variant đầu tiên của dòng Qwen3.6 dạng dense: Qwen3.6-27B. Gần như cùng lúc, Ollama library đã có tag qwen3.6:27b sẵn để pull. Đây là bản thứ hai của series 3.6 sau Qwen3.6-35B-A3B (MoE, ra 16/04).

Pull và chạy chỉ 1 dòng:

ollama run qwen3.6:27b

Điểm thật sự đáng chú ý không chỉ là model — mà là cách nó plug thẳng vào các coding agent phổ biến. Ollama giới thiệu command ollama launch từ 23/01/2026, và bây giờ nó chạy ngon với qwen3.6:

ollama launch claude --model qwen3.6:27b
ollama launch opencode --model qwen3.6:27b
ollama launch openclaw --model qwen3.6:27b
ollama launch codex --model qwen3.6:27b

Không env vars. Không config file. Không phải wrapper script. Ollama tự pull model nếu chưa có, tự install tool (vd OpenClaw) nếu máy chưa có, tự setup gateway, rồi mở terminal interface cho bạn gõ.

Why it matters — dense 27B đánh bại MoE 397B

Claim từ Qwen team: Qwen3.6-27B delivers flagship-level agentic coding performance, surpassing the previous-generation open-source flagship Qwen3.5-397B-A17B across all major coding benchmarks.

Quy ra con số: Qwen3.5-397B-A17B là 807GB full BF16, Qwen3.6-27B chỉ 55.6GB BF16 (và 16.8GB Q4_K_M). Đó là ~1/14 dung lượng. Nếu claim đứng vững qua benchmark công khai, đây là một bước nhảy về efficiency hiếm thấy: một dense model kích thước vừa túi GPU consumer ngang ngửa với MoE flagship cũ.

Hai upgrade highlight:

  • Agentic Coding — xử lý frontend workflow và repository-level reasoning mượt hơn, chính xác hơn. Đây là mảng mà local model trước đây thường hụt hơi so với Claude Code / Codex.
  • Thinking Preservation — option mới giữ lại reasoning context xuyên conversation history. Trong iterative coding (sửa, chạy, sửa tiếp), model không phải "nghĩ lại từ đầu" mỗi turn — giảm overhead và giữ mạch tư duy.

Technical facts

Thuộc tínhGiá trị
ArchitectureDense (không phải MoE)
Parameters27B
Size BF1655.6 GB (GGUF 55.65 GB)
Size Q8_0~30.44 GB
Size Q4_K_M16.8–18.66 GB (Ollama tag ~17 GB)
Context window262,144 tokens (256K)
KV cache @ 262K (Q8)~8.7 GB
InputText + Image (multimodal)
Tools / ThinkingCó cả hai
LicenseApache 2.0

Inference speed thực đo (community Hacker News):

  • MacBook M1 Max 32GB, Q4_K_M: ~9 tok/s output, ~15.9 GB RAM
  • Mac M4 32GB, Q4: ~5 tok/s output, ~60 tok/s prefill
  • RTX 4090D 48GB, Q6_K_XL: ~30 tok/s
  • RTX 5090 32GB: ~70 tok/s (Q4, ước lượng cộng đồng)
  • AMD Radeon R9700 32GB, Q8: ~20 tok/s
  • Framework Desktop Strix Halo 128GB: ~20–25 tok/s (Q8, nhưng dense bottleneck memory bandwidth — MoE tối ưu hơn cho setup này)

Comparison

ModelSize (BF16)LoạiRelease
Qwen3.5-397B-A17B807 GBMoE (17B active)16/02/2026
Qwen3.5-27B~54 GBDense24/02/2026
Qwen3.6-35B-A3B~70 GBMoE (3B active)16/04/2026
Qwen3.6-27B55.6 GBDense22/04/2026

So sánh thực tế vs proprietary: Simon Willison chạy test SVG "pelican riding a bicycle" trên Qwen3.6-27B Q4 (17GB) và thấy kết quả tốt hơn cả Claude Opus 4.7 trong cùng test. Cộng đồng Hacker News phản hồi chung: "a bump up from Gemma 4" — khoảng cách self-hosted vs Claude đang hẹp rõ, dù local vẫn thỉnh thoảng "wander off" trong task dài.

Use cases

  • Indie dev / solo builder: coding agent miễn phí 100%, không lo API cost, không bị rate-limit.
  • Enterprise data-sensitive: code không rời khỏi mạng nội bộ. Đã có team serve Qwen3.5-27B trên 2×Nvidia L4 phục vụ 10 devs đồng thời ở 20–25 tok/s.
  • Mac power user: M1 Max / M4 / M5 Pro 32GB+ là sweet spot — unified memory nuốt model 17GB + 256K context ngọt.
  • Gaming rig làm việc: RTX 4090/5090 hay R9700 chạy Q4/Q6 ở 30–70 tok/s, đủ nhanh cho real-time editing.
  • Automation: pair với Claude Code /loop hoặc Qwen Code để auto check PRs, bug triage, scheduled research — chạy 24/7 trên máy con.

Limitations & pricing

  • Free — Apache 2.0, thương mại hoá thoải mái.
  • Ollama cloud: free tier với coding session window 5 tiếng; paid tier xem ollama.com/pricing.
  • Wander off: như mọi local model, đôi khi đi lạc hướng trên task dài — Claude Opus hiếm mắc hơn. Nên giữ 1 proprietary model làm safety net.
  • Dense penalty: 27B dense không "snappy" trên unified-memory box (Strix Halo ~5–7 tok/s báo cáo). Setup đó nên chọn MoE như Qwen3.6-35B-A3B.
  • Q4 không thật sự lossless: trên long-context và agentic work, sai số Q4 compound. Có VRAM thì chọn Q5/Q8.
  • Tuần đầu ecosystem lag: GGUF chat template bugs, llama.cpp flags chưa chuẩn — thường đợi 1 tuần cho tools và unsloth/Ollama stabilize.
  • Vision encoder: tốn VRAM. Dùng --language-model-only nếu chỉ cần text.

What's next

Qwen GitHub note User Guide coming soon cho Qwen3.6 series. Cộng đồng đang chờ biến thể Qwen3.6-coder (kế thừa Qwen3-coder-next 80B MoE). Ollama tiếp tục mở rộng ollama launch — hiện đã có Droid, dự kiến thêm integrations khác.

Nếu bạn đang chạy Claude Code hay Codex trên cloud mỗi ngày, đây là thời điểm hợp lý để thử một sprint với setup local: ollama launch claude --model qwen3.6:27b và xem workflow có "hụt" ở đâu. Với đa số task <30k context, Qwen3.6-27B đủ dùng.

Nguồn: Simon Willison's Weblog, Hacker News discussion, Ollama library, Ollama launch blog, Qwen3.6 GitHub, Ollama × Claude Code docs.