Qwen 3.6 27B đã lên Ollama: flagship coding dense 17GB, chạy local 1 dòng lệnh

TL;DR

Qwen3.6-27B release 22/04/2026 trên Hugging Face, ModelScope và Ollama — dense 27B, Apache 2.0.
Claim: vượt Qwen3.5-397B-A17B (flagship MoE 807GB) trên mọi major coding benchmark, dù chỉ 1/14 size.
Q4_K_M quant ~17GB, chạy local trên RTX 3090/4090/5090, AMD R9700, hoặc Mac M1 Max 32GB.
Tích hợp thẳng với Claude Code, OpenCode, OpenClaw, Codex qua command mới ollama launch (Ollama v0.15+, ra 23/01/2026) — không cần env vars, không cần config.
Context 256K, multimodal (text + image), có tools và thinking preservation.

What's new — Qwen 3.6 lên Ollama nghĩa là gì

Thứ Ba 22/04/2026, team Qwen (Alibaba) thả variant đầu tiên của dòng Qwen3.6 dạng dense: Qwen3.6-27B. Gần như cùng lúc, Ollama library đã có tag qwen3.6:27b sẵn để pull. Đây là bản thứ hai của series 3.6 sau Qwen3.6-35B-A3B (MoE, ra 16/04).

Pull và chạy chỉ 1 dòng:

ollama run qwen3.6:27b

Điểm thật sự đáng chú ý không chỉ là model — mà là cách nó plug thẳng vào các coding agent phổ biến. Ollama giới thiệu command ollama launch từ 23/01/2026, và bây giờ nó chạy ngon với qwen3.6:

ollama launch claude --model qwen3.6:27b
ollama launch opencode --model qwen3.6:27b
ollama launch openclaw --model qwen3.6:27b
ollama launch codex --model qwen3.6:27b

Không env vars. Không config file. Không phải wrapper script. Ollama tự pull model nếu chưa có, tự install tool (vd OpenClaw) nếu máy chưa có, tự setup gateway, rồi mở terminal interface cho bạn gõ.

Why it matters — dense 27B đánh bại MoE 397B

Claim từ Qwen team: Qwen3.6-27B delivers flagship-level agentic coding performance, surpassing the previous-generation open-source flagship Qwen3.5-397B-A17B across all major coding benchmarks.

Quy ra con số: Qwen3.5-397B-A17B là 807GB full BF16, Qwen3.6-27B chỉ 55.6GB BF16 (và 16.8GB Q4_K_M). Đó là ~1/14 dung lượng. Nếu claim đứng vững qua benchmark công khai, đây là một bước nhảy về efficiency hiếm thấy: một dense model kích thước vừa túi GPU consumer ngang ngửa với MoE flagship cũ.

Hai upgrade highlight:

Agentic Coding — xử lý frontend workflow và repository-level reasoning mượt hơn, chính xác hơn. Đây là mảng mà local model trước đây thường hụt hơi so với Claude Code / Codex.
Thinking Preservation — option mới giữ lại reasoning context xuyên conversation history. Trong iterative coding (sửa, chạy, sửa tiếp), model không phải "nghĩ lại từ đầu" mỗi turn — giảm overhead và giữ mạch tư duy.

Technical facts

Thuộc tính	Giá trị
Architecture	Dense (không phải MoE)
Parameters	27B
Size BF16	55.6 GB (GGUF 55.65 GB)
Size Q8_0	~30.44 GB
Size Q4_K_M	16.8–18.66 GB (Ollama tag ~17 GB)
Context window	262,144 tokens (256K)
KV cache @ 262K (Q8)	~8.7 GB
Input	Text + Image (multimodal)
Tools / Thinking	Có cả hai
License	Apache 2.0

Inference speed thực đo (community Hacker News):

MacBook M1 Max 32GB, Q4_K_M: ~9 tok/s output, ~15.9 GB RAM
Mac M4 32GB, Q4: ~5 tok/s output, ~60 tok/s prefill
RTX 4090D 48GB, Q6_K_XL: ~30 tok/s
RTX 5090 32GB: ~70 tok/s (Q4, ước lượng cộng đồng)
AMD Radeon R9700 32GB, Q8: ~20 tok/s
Framework Desktop Strix Halo 128GB: ~20–25 tok/s (Q8, nhưng dense bottleneck memory bandwidth — MoE tối ưu hơn cho setup này)

Comparison

Model	Size (BF16)	Loại	Release
Qwen3.5-397B-A17B	807 GB	MoE (17B active)	16/02/2026
Qwen3.5-27B	~54 GB	Dense	24/02/2026
Qwen3.6-35B-A3B	~70 GB	MoE (3B active)	16/04/2026
Qwen3.6-27B	55.6 GB	Dense	22/04/2026

So sánh thực tế vs proprietary: Simon Willison chạy test SVG "pelican riding a bicycle" trên Qwen3.6-27B Q4 (17GB) và thấy kết quả tốt hơn cả Claude Opus 4.7 trong cùng test. Cộng đồng Hacker News phản hồi chung: "a bump up from Gemma 4" — khoảng cách self-hosted vs Claude đang hẹp rõ, dù local vẫn thỉnh thoảng "wander off" trong task dài.

Use cases

Indie dev / solo builder: coding agent miễn phí 100%, không lo API cost, không bị rate-limit.
Enterprise data-sensitive: code không rời khỏi mạng nội bộ. Đã có team serve Qwen3.5-27B trên 2×Nvidia L4 phục vụ 10 devs đồng thời ở 20–25 tok/s.
Mac power user: M1 Max / M4 / M5 Pro 32GB+ là sweet spot — unified memory nuốt model 17GB + 256K context ngọt.
Gaming rig làm việc: RTX 4090/5090 hay R9700 chạy Q4/Q6 ở 30–70 tok/s, đủ nhanh cho real-time editing.
Automation: pair với Claude Code /loop hoặc Qwen Code để auto check PRs, bug triage, scheduled research — chạy 24/7 trên máy con.

Limitations & pricing

Free — Apache 2.0, thương mại hoá thoải mái.
Ollama cloud: free tier với coding session window 5 tiếng; paid tier xem ollama.com/pricing.
Wander off: như mọi local model, đôi khi đi lạc hướng trên task dài — Claude Opus hiếm mắc hơn. Nên giữ 1 proprietary model làm safety net.
Dense penalty: 27B dense không "snappy" trên unified-memory box (Strix Halo ~5–7 tok/s báo cáo). Setup đó nên chọn MoE như Qwen3.6-35B-A3B.
Q4 không thật sự lossless: trên long-context và agentic work, sai số Q4 compound. Có VRAM thì chọn Q5/Q8.
Tuần đầu ecosystem lag: GGUF chat template bugs, llama.cpp flags chưa chuẩn — thường đợi 1 tuần cho tools và unsloth/Ollama stabilize.
Vision encoder: tốn VRAM. Dùng --language-model-only nếu chỉ cần text.

What's next

Qwen GitHub note User Guide coming soon cho Qwen3.6 series. Cộng đồng đang chờ biến thể Qwen3.6-coder (kế thừa Qwen3-coder-next 80B MoE). Ollama tiếp tục mở rộng ollama launch — hiện đã có Droid, dự kiến thêm integrations khác.

Nếu bạn đang chạy Claude Code hay Codex trên cloud mỗi ngày, đây là thời điểm hợp lý để thử một sprint với setup local: ollama launch claude --model qwen3.6:27b và xem workflow có "hụt" ở đâu. Với đa số task <30k context, Qwen3.6-27B đủ dùng.

Nguồn: Simon Willison's Weblog, Hacker News discussion, Ollama library, Ollama launch blog, Qwen3.6 GitHub, Ollama × Claude Code docs.

Qwen 3.6 27B đã lên Ollama: flagship coding dense 17GB, chạy local 1 dòng lệnh

TL;DR

What's new — Qwen 3.6 lên Ollama nghĩa là gì

Why it matters — dense 27B đánh bại MoE 397B

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Orca IDE v1.3.18: Bình luận trực tiếp lên diff, gửi cả review cho AI agent trong một click