TL;DR

  • Ngày phát hành: 20/04/2026 — Alibaba ra mắt Qwen3.6-Max-Preview, bản preview sớm của flagship thế hệ kế tiếp trong họ Qwen.
  • Điểm nhấn: đạt top score trên 6 benchmark coding (SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode).
  • So kè trực tiếp: vượt Claude 4.5 Opus ở SkillsBench (55.6 vs 45.3), QwenChineseBench (84.0 vs 69.0), ToolcallFormatIFBench (86.1 vs 84.2), Terminal-Bench 2.0 (65.4 vs 59.3).
  • Truy cập: Qwen Studio (chat) + Alibaba Cloud Model Studio API với tên qwen3.6-max-preview — tương thích OpenAI & Anthropic protocol.

What's new

Qwen3.6-Max-Preview là mô hình proprietary cao cấp nhất trong dòng Qwen 3.6, được thiết kế để cạnh tranh trực tiếp với OpenAI GPT và Google Gemini. So với Qwen3.6-Plus vừa ra mắt trước đó, bản Max-Preview mang ba nâng cấp lõi:

  • Agentic coding mạnh hơn — top score ở toàn bộ 6 benchmark lập trình agent.
  • World knowledge chắc hơn — cải thiện ở SuperGPQA, QwenChineseBench, và AA-Omniscience Index đo độ tin cậy kiến thức.
  • Instruction following sắc bén hơn — đặc biệt ở ToolcallFormatIFBench (định dạng tool call trong agent workflow).

Điểm API đáng chú ý: hỗ trợ tham số preserve_thinking — giữ lại reasoning từ các turn hội thoại trước, rất cần cho agent dài hơi. API chat completions tương thích OpenAI; cũng có endpoint Anthropic-compatible để dev migrate không tốn chi phí refactor.

Why it matters

Đây không chỉ là bản bump số phiên bản. Đường đua LLM hiện tại dịch chuyển từ "trả lời hay" sang "hành động đáng tin" — tức agentic AI tự chạy nhiều bước, gọi tool, xử lý code, thao tác terminal. Việc Alibaba công bố score vượt Claude 4.5 Opus ở các benchmark agentic quan trọng như Terminal-Bench 2.0 và SkillsBench cho thấy Qwen đã thu hẹp — thậm chí vượt — khoảng cách với top Western frontier model ở đúng tập năng lực đang hot nhất.

Với enterprise Trung Quốc và Đông Nam Á (Alibaba Cloud rất mạnh ở AP-Southeast), đây là option hợp lý: hiệu năng coding top-tier, API tương thích OpenAI/Anthropic, data không phải xuất cảnh qua Mỹ.

Technical facts & benchmark numbers

Cải thiện so với Qwen3.6-Plus (tiền nhiệm):

BenchmarkHạng mụcΔ vs Qwen3.6-Plus
SkillsBenchAgent coding+9.9
SciCodeAgent coding+6.3
NL2RepoAgent coding+5.0
Terminal-Bench 2.0Agent coding+3.8
SuperGPQAWorld knowledge+2.3
QwenChineseBenchWorld knowledge+5.3
ToolcallFormatIFBenchInstruction following+2.8

Biểu đồ chính thức Alibaba công bố — Qwen 3.6 Max (preview) so với Qwen 3.6 Plus, Qwen 3.5 Plus, Claude 4.5 Opus, GLM 5.1:

Qwen3.6-Max-Preview benchmark chart so sánh với Claude 4.5 Opus, GLM 5.1, Qwen 3.6/3.5 Plus

Comparison — Qwen3.6-Max-Preview vs Claude 4.5 Opus & GLM 5.1

Trích các con số trực tiếp trên biểu đồ chính thức:

BenchmarkQwen3.6-Max (preview)Claude 4.5 OpusGLM 5.1
SuperGPQA (graduate knowledge)73.970.668.0
QwenChineseBench (Chinese knowledge)84.069.081.2
SkillsBench (agent skills)55.645.353.1
ToolcallFormatIFBench86.184.260.1
Terminal-Bench 2.065.459.363.5
QwenClawBench (real-world agent)59.052.358.7
SciCode (research coding)47.049.543.8
SWE-bench Pro57.357.158.4
NL2Repo (long-horizon coding)42.943.242.7
QwenWebBench (Elo rating)153215301558

Đọc nhanh: Qwen3.6-Max-Preview dẫn 7/10 hạng mục ở trên, đặc biệt bỏ xa Claude 4.5 Opus ở SkillsBench (+10.3), QwenChineseBench (+15), Terminal-Bench 2.0 (+6.1). Claude vẫn giữ được SciCode và NL2Repo sát nút; GLM 5.1 thắng ở SWE-bench Pro và QwenWebBench Elo.

Use cases

  • Agentic coding workflow: code generation, debugging, sửa bug nhiều file, chạy lệnh terminal — nhờ điểm cao Terminal-Bench 2.0 + NL2Repo.
  • Autonomous agent nhiều turn: preserve_thinking giữ mạch reasoning → phù hợp build copilot, research agent, devops bot.
  • System ops & data analysis: instruction following chặt + tool-call đúng format giảm hallucination pipeline.
  • Q&A tiếng Trung & kiến thức thị trường châu Á: QwenChineseBench 84.0 — dẫn đầu khoảng cách lớn.
  • Migration dễ: API OpenAI chat completions compat + Anthropic-compat → chỉ đổi base URL + key là chạy.

Limitations & pricing

  • Vẫn là preview — Alibaba đang thu feedback, model còn iterate, hành vi có thể đổi giữa các bản.
  • Chưa công bố pricing trong tài liệu chính thức tại thời điểm ra mắt; endpoint Alibaba Cloud Model Studio "coming soon" ở một số region.
  • Không có benchmark đối đầu GPT-4 / Gemini công bố — chỉ so với Claude 4.5 Opus và GLM 5.1.
  • Hạ tầng Alibaba Cloud — với user ngoài Trung Quốc, cần kiểm tra region AP-Southeast-1 (Singapore) về latency & tuân thủ data.

What's next

Alibaba xác nhận dòng Qwen 3.6 hiện đã thành product matrix: Max-Preview (flagship), Plus (cân bằng), Flash (tốc độ), và bản open-source Qwen3.6-35B-A3B. Team Qwen hé lộ sẽ còn "more Qwen3.6 models to come" — khả năng cao gồm bản GA (non-preview) của Max và các variant chuyên biệt.

Nếu bạn đang build agent / coding copilot và muốn một option non-US frontier-tier với API quen thuộc, Qwen3.6-Max-Preview đáng thử ngay trong Qwen Studio trước khi cân nhắc lock-in infra.

Nguồn: Qwen official blog, CnTechPost, AIbase, Edgen.