Qwen3.6-Plus ra mắt: 1M-token context, agentic coding vượt Claude Opus 4.5 trên SWE-Bench

TL;DR

Ngày 02/04/2026, Alibaba chính thức ra mắt Qwen3.6-Plus — flagship LLM mới tập trung vào agentic AI cho enterprise, không phải chatbot thông thường. Bộ số liệu đáng chú ý: 1,000,000 token context mặc định, 78.8 điểm SWE-Bench Verified (vượt Claude Opus 4.5 ở 76.8), 61.6 điểm Terminal-Bench 2.0, hybrid thinking mode, và API param preserve_thinking giải quyết bài toán "agent amnesia". Giá khởi điểm 2 RMB / 1M input tokens, tặng 70 triệu token miễn phí cho account mới trên Alibaba Cloud International.

Qwen3.6-Plus release hero banner

Có gì mới

Qwen3.6-Plus là bản kế nhiệm Qwen3.5 (release tháng 02/2026). Ba thay đổi cốt lõi:

1M-token context là default — không phải extension, không phải extrapolation. Đủ chỗ cho toàn bộ codebase mid-size (~750.000 từ) hoặc 10–15 cuốn sách kỹ thuật trong một request.
Agentic coding thành capability lõi — model có thể plan → execute → test → debug xuyên suốt repo, thay vì chỉ autocomplete từng file.
API preserve_thinking — giữ lại toàn bộ reasoning trace qua nhiều turn, fix triệt để tình trạng agent "mất trí nhớ" giữa các tool call.

Ngoài ra, model còn visual coding (UI screenshot/wireframe → functional frontend code), multimodal hiểu text + image + video, và 119 ngôn ngữ native.

Vì sao đáng chú ý

Alibaba định vị rất rõ: Qwen3.6-Plus không phải để đua benchmark với GPT-5 hay Claude Opus 4.7 — mà để enterprise thực sự ship production agent. Dòng "Plus" là tier high-concurrency, workhorse, rẻ hơn Western frontier nhiều lần. Với SMB muốn tự động hoá workflow coding, customer service đa ngôn ngữ, hoặc long-document analysis (finance/legal/healthcare), đây là lựa chọn "giá trị / chi phí" khó bỏ qua.

Điểm quan trọng hơn nữa: đây là Qwen đầu tiên ship agentic capability làm default, không phải prompt-based behaviour. Kết hợp tương thích OpenAI API + Anthropic protocol, bạn có thể drop-in thay thế GPT-4o hoặc Claude 3.5 Sonnet trong pipeline hiện tại mà không phải viết lại SDK.

Technical facts

Qwen3.6-Plus benchmark comparison

Thuộc tính	Giá trị
Architecture	Dense transformer + hybrid thinking
Context window	1,000,000 tokens (default)
Max output	65,536 tokens
Max thought length (thinking on)	81,920 tokens
Modalities input	Text + Image + Video
Ngôn ngữ hỗ trợ	119
SWE-Bench Verified	78.8
Terminal-Bench 2.0	61.6
Giá (Mainland China, ≤256K input)	2 RMB / 1M tokens
Qwen Code OAuth free tier	1.000 calls/day

Hybrid thinking mode

Một tham số API bật/tắt chain-of-thought. Task đơn giản → tắt để giảm latency & chi phí. Task khó (algorithm, debug multi-file) → bật để model "suy nghĩ" tới 81.920 token trước khi trả lời. Quan trọng: cùng một endpoint, không phải gọi model riêng.

So sánh đối thủ

Model	Context	Thinking mode	SWE-Bench Verified
Qwen3.6-Plus	1M	Yes (hybrid)	78.8
Claude Opus 4.5	200K	No	76.8
Gemini 1.5 Pro	1M	No	—
GPT-4o	128K	No	—
Claude 3.5 Sonnet	200K	No	—

Đáng chú ý: Alibaba không benchmark trực tiếp với Claude Opus 4.6/4.7 hay Gemini 3.1 Pro — vì Plus-tier định vị vào deployment scenario high-concurrency, không cố đua flagship-tier. Với Gemini 1.5 Pro (cũng 1M context), Qwen edge ở hybrid thinking và code generation.

Use cases thực tế

Qwen3.6-Plus visual agent + UI-to-code

Repository-level automation — refactor toàn bộ auth logic qua hàng trăm file trong một request; document full public API; PR review có context toàn repo.
UI-to-code — upload screenshot hoặc hand-drawn wireframe, model sinh frontend functional ngay. Hỗ trợ cả 3D scene và web game.
Long-document intelligence — finance/legal feed nhiều năm filings/contracts trong 1 query; healthcare đọc medical imaging report cùng clinical notes.
Multilingual customer service agent — 100+ ngôn ngữ, hiểu screenshot + text + DB cùng lúc.
Automated visual inspection — retail intelligence, physical-world QC với fine-grained visual perception.

Limitations & pricing

Trung thực vài điểm yếu:

Latency khi thinking on — không phù hợp real-time UI. Phải tự test xem chất lượng có đáng thời gian chờ.
Open-ended architectural reasoning — vẫn thua Claude Opus / o3 khi task thiên về suy luận trade-off mơ hồ. Qwen mạnh ở execution có acceptance criteria rõ.
Closed API — không self-host được, data phải gửi cloud. Finance/healthcare yêu cầu on-prem nên nhắm Qwen3.6-35B-A3B open-weight (ra mắt 17/04/2026).
Ecosystem tooling — chưa sâu bằng OpenAI/Anthropic, tuy đã compatible với Claude Code, Cline, OpenClaw, Qwen Code.

Giá & truy cập:

Alibaba Cloud Model Studio (DashScope API) — production
Qwen Chat (qwen.ai) — dùng thử
OpenRouter — free preview từ 30/03/2026
Qwen Code OAuth — 1.000 calls/day miễn phí
Promo: 70 triệu token miễn phí cho account mới trên Alibaba Cloud International

What's next

Roadmap Alibaba đã công bố khá rõ: hoàn tất rollout đầy đủ series Qwen3.6 với các biến thể smaller-scale open-source, push model autonomy xa hơn cho long-horizon repo-level tasks, và phát triển GUI Agent có khả năng "nhìn màn hình → lập kế hoạch → thực thi" trong môi trường open.

Ngày 17/04/2026, Alibaba đã open-source Qwen3.6-35B-A3B — đem sức mạnh agentic coding về cộng đồng self-host. Với ai cần compliance hay on-prem, đây là điểm tiếp theo cần nhìn.

Nguồn: Alibaba Cloud official, press release, MindStudio review, iWeaver in-depth. Đăng ký thử: Alibaba Cloud International.

Qwen3.6-Plus ra mắt: 1M-token context, agentic coding vượt Claude Opus 4.5 trên SWE-Bench

TL;DR

Có gì mới

Vì sao đáng chú ý

Technical facts

Hybrid thinking mode

So sánh đối thủ

Use cases thực tế

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

termDRAW: vẽ sơ đồ ASCII ngay trong terminal để prompt agent đỡ tốn token

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding