Qwen 3.6 về open-source trên Ollama: một lệnh là chạy Claude Code local, zero API cost

TL;DR

Qwen 3.6 release hero — agentic coding, frontend to repo-level, improved multimodal

Ollama vừa bật công tắc open-source cho Qwen 3.6 — dòng agentic coding frontier của Alibaba Qwen series 3.6 giờ chạy local được, miễn phí vô thời hạn. Không phải distill, không phải cut-down — là MoE 35B-A3B (35B total / 3B active) mang full stack post-training 3.6: Agent RL long-horizon, multi-turn tool use, thinking preservation. Điểm đáng chú ý nhất không nằm ở benchmark mà ở workflow: một lệnh ollama launch claude --model qwen3.6 là Claude Code CLI chuyển hoàn toàn sang model local. Tương tự với OpenClaw — MIT-license AI coding assistant bridge Telegram/Slack/Discord — cũng chỉ cần ollama launch openclaw --model qwen3.6. Zero API cost, zero data leaving your box.

What's new

Tweet từ @ollama ngắn gọn: "Qwen 3.6 is here, and open-source! Run it locally with improved agentic coding capabilities." Kèm ba command chính:

ollama launch claude --model qwen3.6 — khởi Claude Code với backend local
ollama launch openclaw --model qwen3.6 — khởi OpenClaw bridge agent
ollama run qwen3.6 — chạy standalone (REPL)

Background tối thiểu để hiểu tại sao command này work: từ Ollama v0.14 (tháng 1/2026), runtime đã mở Anthropic-compatible API layer — Claude Code tưởng đang gọi Anthropic Messages API nhưng thực chất trỏ về localhost:11434. Không proxy, không sửa config tay. OpenClaw (MIT license) cũng dùng native /api/chat của Ollama cho streaming + tool-call đồng thời.

8 variants: từ 22GB đến 71GB

Ollama library publish 8 format, cover được từ laptop consumer GPU cho tới workstation multi-GPU:

Format	Size	Target hardware
nvfp4	22 GB	NVIDIA FP4 (H100 / Blackwell) — fastest
q4_K_M	24 GB	RTX 4090 / 3090 / A5000 (consumer)
q8_0	39 GB	A100 40GB / 2× RTX 4090
bf16	71 GB	2× A100 80GB / H100 — research full-precision

Mọi variant share: 256K context native, multimodal text + images, license Apache 2.0. Kiến trúc kế thừa Qwen 3.5-35B-A3B: 256 experts, 8 routed + 1 shared per token, hybrid Gated DeltaNet + Gated Attention, 201 languages.

Why it matters: indie Claude Code experience

Setup hoàn chỉnh cho indie dev chạy coding agent thuần local giờ rút về 3 dòng:

ollama pull qwen3.6:q4_K_M
ollama launch claude --model qwen3.6
claude # Claude Code CLI tự connect localhost

Không phải trả tiền API, không có rate-limit, code không rời máy. Với developer ở thị trường bị Anthropic API restrict (một số region) hoặc team không muốn gửi repo proprietary ra cloud, đây là option đầu tiên gần như ngang tier flagship closed-source. Chữ "gần như" quan trọng — open-weight 35B-A3B không bằng Qwen 3.6-Plus (flagship API) hoặc Claude Opus 4.5/4.6, nhưng gap đã đủ hẹp để production workflow thực sự chạy được.

Technical facts: Qwen 3.6-Plus benchmarks (upper bound)

Qwen 3.6 Plus benchmark table — SWE-bench, Terminal-Bench, GeneralBench, Knowledge, Reasoning so với Claude Opus 4.5, Kimi K2.5, GLM-5, Qwen 3.5

Open-weight 35B-A3B sẽ thấp hơn Plus đôi chút, nhưng số của Plus là trần capability cho biết dòng 3.6 đang ở đâu. Theo MindStudio review và Digital Applied benchmark:

Benchmark	Qwen 3.6 Plus	Claude 4.5 Opus	GLM-5	Kimi K2.5	Qwen 3.5
SWE-bench Verified	78.8	80.9	77.8	—	—
Terminal-Bench 2.0	61.6	59.3	56.2	50.8	52.5

Terminal-Bench 2.0 là điểm đáng chú ý nhất: Qwen 3.6 Plus thắng cả Claude Opus 4.5 ở agentic terminal coding (sửa bug, chạy CLI, multi-step tool use). SWE-bench Verified chỉ kém Opus 2.1 điểm — khoảng cách hẹp nhất lịch sử Qwen vs Claude tier flagship.

Comparison: vs tiền nhiệm + vs dense mid-tier

Language performance comparison — coding agents, general-purpose agents, tool use across Qwen 3.6 vs competitors

Vs Qwen 3.5-35B-A3B (cùng kiến trúc, tháng 2/2026):

Bước nhảy không ở kiến trúc mà ở post-training stack 3.6: Agent RL long-horizon task, multi-turn tool use, data-mix coding/frontend/repo-level nâng cấp
Giảm overthinking rõ rệt, tool-call reliability cao hơn — inherit pattern preserve_thinking của 3.6-Plus
"Dramatically surpasses" trên agentic coding theo mô tả chính thức

Vs Qwen 3.5-27B dense:

3B active vs 27B active → rẻ ~9× compute mỗi token
Throughput consumer GPU: A3B ~60–100+ tok/s, dense 27B ~15–25 tok/s
Vượt 27B dense trên several key coding benchmark — lần đầu MoE nhỏ-active open-weight beat dense mid-tier trên coding

Use cases: ai nên switch ngay

Indie dev / solo builder: chạy Claude Code với model local, không tốn API fee. Workflow như trên: 3 lệnh là xong
Team privacy-critical (healthcare, legal, fintech): OpenClaw + Ollama + Qwen 3.6 = full MIT/Apache stack, code không rời network. OpenClaw bridge Slack/Telegram/Discord/iMessage → nhắn tin trong Slack, bot reply bằng model local
Agentic product builder: tool-use reliability đã first-class — build code-review bot, AI pair programmer, repo-level refactor agent
Research / fine-tuning: Apache 2.0 cho phép distill, domain-adapt (legal code, medical software, trading systems) — trước đây phải đợi Llama hoặc Qwen 3.5
Frontend-heavy projects: Qwen series ưu thế ở web design + SVG + data viz; 3.6 nâng cấp frontend workflow cụ thể

Limitations & pricing

Hardware floor: ~22GB VRAM cho nvfp4, 24GB cho q4_K_M. RTX 4090 / 3090 / A5000 là entry tier. Full bf16 71GB cần 2×A100 80GB hoặc H100
Context 1M qua YaRN: tốn RAM/VRAM đáng kể — native 256K là đủ 99% use case repo-level
Không phải flagship: vẫn thua Qwen 3.6-Plus, Claude Opus 4.5/4.6, GPT-5.4 ở task phức tạp nhất. Best open-weight ≠ best overall
Multimodal: có text + images nhưng không bằng Plus ở chart/doc OCR phức tạp
Self-host cost: free (Apache 2.0). Chỉ tốn điện + GPU đã có sẵn. Commercial-friendly license

What's next

Pattern Qwen 3.x cho thấy sau tier mid (35B-A3B) thường đến:

Qwen 3.6-Coder dedicated (theo pattern Qwen 3-Coder, Qwen 2.5-Coder) — sẽ push SWE-bench lên thêm 3–5 điểm
Các size nhỏ/lớn khác open-weight: 0.8B – 9B cho edge/laptop, 122B-A10B cho workstation, 397B-A17B cho flagship open
Qwen 3.6 multimodal dedicated (audio / video) theo hướng Gemini / GPT-5

Ngắn gọn: hôm nay là ngày Claude Code local thực sự usable cho production coding — khoảng cách với flagship đã đủ hẹp, setup đã đủ gọn. Xem thêm qwen3.6 trên Ollama library, OpenClaw integration blog, và Qwen 3.6-Plus announcement.