TL;DR

  • Ngày 22/04/2026, Alibaba Qwen Team release Qwen3.6-27B — dense model 27B tham số, license Apache 2.0, trọng số công khai trên Hugging Face.
  • Model 27B này vượt Qwen3.5-397B-A17B (MoE 397B total / 17B active) trên toàn bộ coding benchmark chính: SWE-bench Verified 77.2 vs 76.2, Terminal-Bench 2.0 59.3 vs 52.5, SkillsBench 48.2 vs 30.0.
  • Atomic Bot ship tích hợp one-click cùng ngày: Qwen3.6-27B giờ chạy được cho cả OpenClawHermes agent trên desktop, không cần terminal / Docker / SSH.
  • Kích thước full-precision: 55.6 GB (6.8% so với predecessor 807 GB). Bản Q4 quantized 16.8 GB chạy ổn trên RTX 4090 hoặc Apple Silicon 32GB.

Có gì mới

Qwen3.6-27B là dense model, không phải Mixture-of-Experts. Điểm thú vị: nó dùng kiến trúc lai — 64 layer, hidden dim 5120, và khối lặp đặc trưng gồm 3 × (Gated DeltaNet → FFN) + 1 × (Gated Attention → FFN). Nghĩa là 3/4 sublayer là linear attention (Gated DeltaNet), chỉ 1/4 dùng self-attention truyền thống.

Model hỗ trợ native context 262,144 token, extensible lên 1,010,000 token qua YaRN — đủ để nuốt cả codebase hoặc tài liệu dày cỡ sách. Kèm theo là Multi-Token Prediction (MTP) cho speculative decoding, và multimodal native (text / image / video).

Một cơ chế mới đáng chú ý là Thinking Preservation: chuỗi chain-of-thought được giữ xuyên suốt conversation thay vì regenerate mỗi lượt, giảm token waste trong agentic task lặp lại nhiều. Tính năng này yêu cầu ≥128K context để hoạt động hiệu quả.

Vì sao điều này quan trọng

Đây là phát biểu khá mạnh: một dense model 27B ăn đứt MoE 397B cùng họ trên agentic coding. Về practical deployment, chênh lệch size là 55.6 GB vs 807 GB — tức Qwen3.6-27B bé hơn 14.5 lần mà coding benchmark còn cao hơn.

Trên Terminal-Bench 2.0, Qwen3.6-27B ngang bằng Claude 4.5 Opus (đều 59.3). SWE-bench Verified 77.2 chỉ kém Opus 3.7 điểm — và Qwen3.6 là open-weight, chạy local, miễn phí.

Kết quả này đặt dấu hỏi cho giả định scaling truyền thống: càng nhiều tham số càng tốt. Qwen team chọn data + training methodology + kiến trúc hybrid, không brute-force scale.

Thông số kỹ thuật

PropertyQwen3.6-27B
Params27B dense
Layers64
Hidden dim5120
Context262K native / 1.01M YaRN
Weights (BF16)55.6 GB
Weights (FP8 block-128)~28 GB
Q4_K_M GGUF16.8 GB
Throughput (local)~25 tokens/s
LicenseApache 2.0
Runtime supportSGLang ≥0.5.10, vLLM ≥0.19.0, KTransformers, HF Transformers, Ollama, llama.cpp

So sánh benchmark

BenchmarkQwen3.6-27BQwen3.5-397B-A17BClaude 4.5 Opus
SWE-bench Verified77.276.280.9
SWE-bench Pro53.550.9
Terminal-Bench 2.059.352.559.3
SkillsBench48.230.0
QwenWebBench1487
GPQA Diamond87.8
AIME2694.1
LiveCodeBench v683.9

Vision-language: VideoMME (w/ subtitles) 87.7, AndroidWorld 70.3, NL2Repo 36.2 (repo-level code generation).

Use cases trong Atomic Bot

Atomic Bot là desktop app (macOS + Windows) cho phép chạy agent open-source mà không cần terminal, Docker hay SSH. Với patch mới, bạn có 2 agent chính:

  • OpenClaw: agent coding tập trung repo-level reasoning, multi-file edit, frontend workflow.
  • Hermes Agent: agent tự cải thiện của Nous Research (100k+ sao GitHub), có persistent memory giữ preferences, decisions và task history xuyên conversation. Hermes dựa nhiều vào tool-calling — Qwen3.6-27B ghi 37.0 trên MCPMark, vừa đủ mạnh cho pattern này.

Cả hai đều có thể chạy Qwen3.6-27B local qua Ollama (giữ inference offline) hoặc cắm API key provider nếu muốn cloud. Trường hợp điển hình:

  1. Code agent viết PR cho repo private, không lo leak code.
  2. Tài liệu dài 1M token: đọc cả codebase Python enterprise trong một context.
  3. Android automation: Qwen3.6 ghi 70.3 AndroidWorld → agent điều khiển phone tasks khả thi.

Giới hạn & pricing

  • Miễn phí hoàn toàn (Apache 2.0, commercial use OK). Không có paid tier từ Alibaba cho weight release này.
  • Hardware: BF16 cần ~56 GB VRAM; FP8 ~28 GB; Q4_K_M 17 GB chạy trên single RTX 4090 hoặc Apple Silicon 32 GB.
  • Tốc độ local: ~25 tokens/s — generation dài (4–6K token) vẫn tốn 4–5 phút.
  • Vẫn kém Claude 4.5 Opus khoảng 3.7 điểm SWE-bench Verified; vài artifact nhỏ khi generate SVG phức tạp.
  • Thinking Preservation đòi hỏi ≥128K context — deploy context ngắn sẽ mất tính năng này.

Điều gì tiếp theo

Qwen team đã hint về Qwen3.6-PlusQwen3.6-Max Preview trên Alibaba Cloud cho tier flagship closed-ish. Song song, Qwen3-Coder-Next hybrid preview đang được tune thêm cho agentic workflow.

Với Atomic Bot, việc tích hợp one-click model 27B dense mở đường cho dàn open-source agent chạy local khả thi: OpenClaw giờ không cần "cloud crutch", Hermes có engine đủ mạnh để self-improve on-device. Nếu bạn đang chờ thời điểm để chuyển stack agent về local — đây có thể là tuần đó.

Nguồn: Hugging Face, MarkTechPost, Simon Willison, Atomic Bot.