- Alibaba vừa drop Qwen3.6-27B — dense model 27B Apache-2.0 vượt flagship cũ 397B-A17B trên SWE-bench, Terminal-Bench và SkillsBench.
- Atomic Bot ship one-click cho OpenClaw + Hermes ngay trong ngày, chạy local 1-click, miễn phí.
TL;DR
- Ngày 22/04/2026, Alibaba Qwen Team release Qwen3.6-27B — dense model 27B tham số, license Apache 2.0, trọng số công khai trên Hugging Face.
- Model 27B này vượt Qwen3.5-397B-A17B (MoE 397B total / 17B active) trên toàn bộ coding benchmark chính: SWE-bench Verified 77.2 vs 76.2, Terminal-Bench 2.0 59.3 vs 52.5, SkillsBench 48.2 vs 30.0.
- Atomic Bot ship tích hợp one-click cùng ngày: Qwen3.6-27B giờ chạy được cho cả OpenClaw và Hermes agent trên desktop, không cần terminal / Docker / SSH.
- Kích thước full-precision: 55.6 GB (6.8% so với predecessor 807 GB). Bản Q4 quantized 16.8 GB chạy ổn trên RTX 4090 hoặc Apple Silicon 32GB.
Có gì mới
Qwen3.6-27B là dense model, không phải Mixture-of-Experts. Điểm thú vị: nó dùng kiến trúc lai — 64 layer, hidden dim 5120, và khối lặp đặc trưng gồm 3 × (Gated DeltaNet → FFN) + 1 × (Gated Attention → FFN). Nghĩa là 3/4 sublayer là linear attention (Gated DeltaNet), chỉ 1/4 dùng self-attention truyền thống.
Model hỗ trợ native context 262,144 token, extensible lên 1,010,000 token qua YaRN — đủ để nuốt cả codebase hoặc tài liệu dày cỡ sách. Kèm theo là Multi-Token Prediction (MTP) cho speculative decoding, và multimodal native (text / image / video).
Một cơ chế mới đáng chú ý là Thinking Preservation: chuỗi chain-of-thought được giữ xuyên suốt conversation thay vì regenerate mỗi lượt, giảm token waste trong agentic task lặp lại nhiều. Tính năng này yêu cầu ≥128K context để hoạt động hiệu quả.
Vì sao điều này quan trọng
Đây là phát biểu khá mạnh: một dense model 27B ăn đứt MoE 397B cùng họ trên agentic coding. Về practical deployment, chênh lệch size là 55.6 GB vs 807 GB — tức Qwen3.6-27B bé hơn 14.5 lần mà coding benchmark còn cao hơn.
Trên Terminal-Bench 2.0, Qwen3.6-27B ngang bằng Claude 4.5 Opus (đều 59.3). SWE-bench Verified 77.2 chỉ kém Opus 3.7 điểm — và Qwen3.6 là open-weight, chạy local, miễn phí.
Kết quả này đặt dấu hỏi cho giả định scaling truyền thống: càng nhiều tham số càng tốt. Qwen team chọn data + training methodology + kiến trúc hybrid, không brute-force scale.
Thông số kỹ thuật
| Property | Qwen3.6-27B |
|---|---|
| Params | 27B dense |
| Layers | 64 |
| Hidden dim | 5120 |
| Context | 262K native / 1.01M YaRN |
| Weights (BF16) | 55.6 GB |
| Weights (FP8 block-128) | ~28 GB |
| Q4_K_M GGUF | 16.8 GB |
| Throughput (local) | ~25 tokens/s |
| License | Apache 2.0 |
| Runtime support | SGLang ≥0.5.10, vLLM ≥0.19.0, KTransformers, HF Transformers, Ollama, llama.cpp |
So sánh benchmark
| Benchmark | Qwen3.6-27B | Qwen3.5-397B-A17B | Claude 4.5 Opus |
|---|---|---|---|
| SWE-bench Verified | 77.2 | 76.2 | 80.9 |
| SWE-bench Pro | 53.5 | 50.9 | — |
| Terminal-Bench 2.0 | 59.3 | 52.5 | 59.3 |
| SkillsBench | 48.2 | 30.0 | — |
| QwenWebBench | 1487 | — | — |
| GPQA Diamond | 87.8 | — | — |
| AIME26 | 94.1 | — | — |
| LiveCodeBench v6 | 83.9 | — | — |
Vision-language: VideoMME (w/ subtitles) 87.7, AndroidWorld 70.3, NL2Repo 36.2 (repo-level code generation).
Use cases trong Atomic Bot
Atomic Bot là desktop app (macOS + Windows) cho phép chạy agent open-source mà không cần terminal, Docker hay SSH. Với patch mới, bạn có 2 agent chính:
- OpenClaw: agent coding tập trung repo-level reasoning, multi-file edit, frontend workflow.
- Hermes Agent: agent tự cải thiện của Nous Research (100k+ sao GitHub), có persistent memory giữ preferences, decisions và task history xuyên conversation. Hermes dựa nhiều vào tool-calling — Qwen3.6-27B ghi 37.0 trên MCPMark, vừa đủ mạnh cho pattern này.
Cả hai đều có thể chạy Qwen3.6-27B local qua Ollama (giữ inference offline) hoặc cắm API key provider nếu muốn cloud. Trường hợp điển hình:
- Code agent viết PR cho repo private, không lo leak code.
- Tài liệu dài 1M token: đọc cả codebase Python enterprise trong một context.
- Android automation: Qwen3.6 ghi 70.3 AndroidWorld → agent điều khiển phone tasks khả thi.
Giới hạn & pricing
- Miễn phí hoàn toàn (Apache 2.0, commercial use OK). Không có paid tier từ Alibaba cho weight release này.
- Hardware: BF16 cần ~56 GB VRAM; FP8 ~28 GB; Q4_K_M 17 GB chạy trên single RTX 4090 hoặc Apple Silicon 32 GB.
- Tốc độ local: ~25 tokens/s — generation dài (4–6K token) vẫn tốn 4–5 phút.
- Vẫn kém Claude 4.5 Opus khoảng 3.7 điểm SWE-bench Verified; vài artifact nhỏ khi generate SVG phức tạp.
- Thinking Preservation đòi hỏi ≥128K context — deploy context ngắn sẽ mất tính năng này.
Điều gì tiếp theo
Qwen team đã hint về Qwen3.6-Plus và Qwen3.6-Max Preview trên Alibaba Cloud cho tier flagship closed-ish. Song song, Qwen3-Coder-Next hybrid preview đang được tune thêm cho agentic workflow.
Với Atomic Bot, việc tích hợp one-click model 27B dense mở đường cho dàn open-source agent chạy local khả thi: OpenClaw giờ không cần "cloud crutch", Hermes có engine đủ mạnh để self-improve on-device. Nếu bạn đang chờ thời điểm để chuyển stack agent về local — đây có thể là tuần đó.
Nguồn: Hugging Face, MarkTechPost, Simon Willison, Atomic Bot.

