Qwen3.6-Max-Preview: Alibaba Tung Flagship Mới Đối Đầu GPT & Gemini, Vượt Claude 4.5 Opus Trên Loạt Benchmark Coding

TL;DR

Ngày phát hành: 20/04/2026 — Alibaba ra mắt Qwen3.6-Max-Preview, bản preview sớm của flagship thế hệ kế tiếp trong họ Qwen.
Điểm nhấn: đạt top score trên 6 benchmark coding (SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode).
So kè trực tiếp: vượt Claude 4.5 Opus ở SkillsBench (55.6 vs 45.3), QwenChineseBench (84.0 vs 69.0), ToolcallFormatIFBench (86.1 vs 84.2), Terminal-Bench 2.0 (65.4 vs 59.3).
Truy cập: Qwen Studio (chat) + Alibaba Cloud Model Studio API với tên qwen3.6-max-preview — tương thích OpenAI & Anthropic protocol.

What's new

Qwen3.6-Max-Preview là mô hình proprietary cao cấp nhất trong dòng Qwen 3.6, được thiết kế để cạnh tranh trực tiếp với OpenAI GPT và Google Gemini. So với Qwen3.6-Plus vừa ra mắt trước đó, bản Max-Preview mang ba nâng cấp lõi:

Agentic coding mạnh hơn — top score ở toàn bộ 6 benchmark lập trình agent.
World knowledge chắc hơn — cải thiện ở SuperGPQA, QwenChineseBench, và AA-Omniscience Index đo độ tin cậy kiến thức.
Instruction following sắc bén hơn — đặc biệt ở ToolcallFormatIFBench (định dạng tool call trong agent workflow).

Điểm API đáng chú ý: hỗ trợ tham số preserve_thinking — giữ lại reasoning từ các turn hội thoại trước, rất cần cho agent dài hơi. API chat completions tương thích OpenAI; cũng có endpoint Anthropic-compatible để dev migrate không tốn chi phí refactor.

Why it matters

Đây không chỉ là bản bump số phiên bản. Đường đua LLM hiện tại dịch chuyển từ "trả lời hay" sang "hành động đáng tin" — tức agentic AI tự chạy nhiều bước, gọi tool, xử lý code, thao tác terminal. Việc Alibaba công bố score vượt Claude 4.5 Opus ở các benchmark agentic quan trọng như Terminal-Bench 2.0 và SkillsBench cho thấy Qwen đã thu hẹp — thậm chí vượt — khoảng cách với top Western frontier model ở đúng tập năng lực đang hot nhất.

Với enterprise Trung Quốc và Đông Nam Á (Alibaba Cloud rất mạnh ở AP-Southeast), đây là option hợp lý: hiệu năng coding top-tier, API tương thích OpenAI/Anthropic, data không phải xuất cảnh qua Mỹ.

Technical facts & benchmark numbers

Cải thiện so với Qwen3.6-Plus (tiền nhiệm):

Benchmark	Hạng mục	Δ vs Qwen3.6-Plus
SkillsBench	Agent coding	+9.9
SciCode	Agent coding	+6.3
NL2Repo	Agent coding	+5.0
Terminal-Bench 2.0	Agent coding	+3.8
SuperGPQA	World knowledge	+2.3
QwenChineseBench	World knowledge	+5.3
ToolcallFormatIFBench	Instruction following	+2.8

Biểu đồ chính thức Alibaba công bố — Qwen 3.6 Max (preview) so với Qwen 3.6 Plus, Qwen 3.5 Plus, Claude 4.5 Opus, GLM 5.1:

Qwen3.6-Max-Preview benchmark chart so sánh với Claude 4.5 Opus, GLM 5.1, Qwen 3.6/3.5 Plus

Comparison — Qwen3.6-Max-Preview vs Claude 4.5 Opus & GLM 5.1

Trích các con số trực tiếp trên biểu đồ chính thức:

Benchmark	Qwen3.6-Max (preview)	Claude 4.5 Opus	GLM 5.1
SuperGPQA (graduate knowledge)	73.9	70.6	68.0
QwenChineseBench (Chinese knowledge)	84.0	69.0	81.2
SkillsBench (agent skills)	55.6	45.3	53.1
ToolcallFormatIFBench	86.1	84.2	60.1
Terminal-Bench 2.0	65.4	59.3	63.5
QwenClawBench (real-world agent)	59.0	52.3	58.7
SciCode (research coding)	47.0	49.5	43.8
SWE-bench Pro	57.3	57.1	58.4
NL2Repo (long-horizon coding)	42.9	43.2	42.7
QwenWebBench (Elo rating)	1532	1530	1558

Đọc nhanh: Qwen3.6-Max-Preview dẫn 7/10 hạng mục ở trên, đặc biệt bỏ xa Claude 4.5 Opus ở SkillsBench (+10.3), QwenChineseBench (+15), Terminal-Bench 2.0 (+6.1). Claude vẫn giữ được SciCode và NL2Repo sát nút; GLM 5.1 thắng ở SWE-bench Pro và QwenWebBench Elo.

Use cases

Agentic coding workflow: code generation, debugging, sửa bug nhiều file, chạy lệnh terminal — nhờ điểm cao Terminal-Bench 2.0 + NL2Repo.
Autonomous agent nhiều turn: preserve_thinking giữ mạch reasoning → phù hợp build copilot, research agent, devops bot.
System ops & data analysis: instruction following chặt + tool-call đúng format giảm hallucination pipeline.
Q&A tiếng Trung & kiến thức thị trường châu Á: QwenChineseBench 84.0 — dẫn đầu khoảng cách lớn.
Migration dễ: API OpenAI chat completions compat + Anthropic-compat → chỉ đổi base URL + key là chạy.

Limitations & pricing

Vẫn là preview — Alibaba đang thu feedback, model còn iterate, hành vi có thể đổi giữa các bản.
Chưa công bố pricing trong tài liệu chính thức tại thời điểm ra mắt; endpoint Alibaba Cloud Model Studio "coming soon" ở một số region.
Không có benchmark đối đầu GPT-4 / Gemini công bố — chỉ so với Claude 4.5 Opus và GLM 5.1.
Hạ tầng Alibaba Cloud — với user ngoài Trung Quốc, cần kiểm tra region AP-Southeast-1 (Singapore) về latency & tuân thủ data.

What's next

Alibaba xác nhận dòng Qwen 3.6 hiện đã thành product matrix: Max-Preview (flagship), Plus (cân bằng), Flash (tốc độ), và bản open-source Qwen3.6-35B-A3B. Team Qwen hé lộ sẽ còn "more Qwen3.6 models to come" — khả năng cao gồm bản GA (non-preview) của Max và các variant chuyên biệt.

Nếu bạn đang build agent / coding copilot và muốn một option non-US frontier-tier với API quen thuộc, Qwen3.6-Max-Preview đáng thử ngay trong Qwen Studio trước khi cân nhắc lock-in infra.

Nguồn: Qwen official blog, CnTechPost, AIbase, Edgen.

Qwen3.6-Max-Preview: Alibaba Tung Flagship Mới Đối Đầu GPT & Gemini, Vượt Claude 4.5 Opus Trên Loạt Benchmark Coding

TL;DR

What's new

Why it matters

Technical facts & benchmark numbers

Comparison — Qwen3.6-Max-Preview vs Claude 4.5 Opus & GLM 5.1

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

SmallClaw: AI agent framework local-first cho small models, chạy ngon trên laptop 8GB RAM

Qwen-Image Vừa Bẻ Khoá "Sharper Instruction Following" — Và Đây Không Phải Screenshot

Chandra OCR 2: Mô hình OCR open-source 4B đánh bại Gemini, dots.ocr và olmOCR