TL;DR

Ngày 20/04/2026, Alibaba bất ngờ tung Qwen3.6-Max-Preview — bản preview của mô hình flagship kế tiếp trong dòng Qwen 3.6. Model đạt top-1 trên 6 benchmark coding (SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode), hỗ trợ context 260k tokens và ghi 52 điểm Artificial Analysis Intelligence Index — chỉ thua đúng 5 điểm so với bộ ba Claude Opus 4.7 (max), Gemini 3.1 Pro Preview và GPT-5.4 (xhigh). Dùng ngay trên Qwen Studio, API sắp mở trên Alibaba Cloud Model Studio.

Qwen 3.6 Max Preview benchmark comparison vs Qwen 3.6 Plus, Qwen 3.5 Plus, Claude 4.5 Opus, GLM 5.1

Điểm mới

Qwen3.6-Max-Preview là bản nâng cấp chính của dòng Qwen chỉ 18 ngày sau bản Qwen3.6-Plus (02/04/2026). Alibaba khẳng định đây là model proprietary mạnh nhất từ trước đến nay trong hệ Qwen, được thiết kế như một reasoning model với extended chain-of-thought — suy luận nhiều bước trước khi trả lời.

  • Agentic coding mạnh hơn hẳn Qwen3.6-Plus, đặc biệt ở tác vụ multi-file repo editing và terminal agent.
  • World knowledge được củng cố — SuperGPQA +2.3, QwenChineseBench +5.3.
  • Instruction following ổn định hơn — ToolcallFormatIFBench +2.8, quan trọng cho agent workflow dùng tool calling.
  • Hỗ trợ feature preserve_thinking: giữ nguyên thinking content xuyên suốt các turn, cực hữu ích cho agentic tasks.
  • API compatible cả OpenAI chat completions lẫn Anthropic protocol — drop-in thay thế.

Vì sao đáng chú ý

Suốt 2025–2026, coding agent đã trở thành chiến trường chính giữa các frontier lab. Claude Opus 4.x và GPT-5.x chiếm lĩnh nhờ khả năng tool use đáng tin cậy. Qwen3.6-Max-Preview là lần đầu tiên một model proprietary từ Alibaba bám sát top-3 phương Tây chỉ với khoảng cách 5 điểm Intelligence Index — đồng thời vượt Claude Sonnet 4.6 (max), Gemini 3 Flash và DeepSeek V3.2.

Với dev Việt Nam, điểm đáng giá nhất là context 260k tokens — đủ để nhét cả monorepo vừa cộng lịch sử conversation vào một request, không cần chia chunk phức tạp.

Số liệu kỹ thuật

Benchmark so sánh Qwen3.6-Max-Preview với Qwen3.6-Plus và Claude 4.5 Opus (theo bảng official từ Qwen):

BenchmarkQwen 3.6 Max (preview)Qwen 3.6 PlusClaude 4.5 OpusDelta vs Plus
SkillsBench (agent skills)55.645.745.3+9.9
SciCode (research coding)47.040.749.5+6.3
NL2Repo (long-horizon coding)42.937.943.2+5.0
Terminal-Bench 2.065.461.659.3+3.8
SWE-bench Pro (agentic coding)57.356.657.1+0.7
QwenClawBench (real-world agent)59.057.252.3+1.8
QwenWebBench (Elo rating)153214951530+37
SuperGPQA (graduate knowledge)73.971.670.6+2.3
QwenChineseBench84.078.769.0+5.3
ToolcallFormatIFBench86.183.384.2+2.8

Các đặc tả khác:

  • Intelligence Index (Artificial Analysis): 52 — hạng 4 toàn bảng 478 models.
  • Context window: 256k–260k tokens.
  • Modality: text-only (không hỗ trợ image/audio/video input).
  • Parameter count: không công bố (proprietary).
  • Verbosity: sinh 74M output tokens khi eval Intelligence Index — khá dài dòng so với trung bình 26M.

So sánh frontier models

Trên Artificial Analysis Intelligence Index (cập nhật 04/2026):

ModelIndexGhi chú
Claude Opus 4.7 (max)57Top chung
Gemini 3.1 Pro Preview57Top chung
GPT-5.4 (xhigh)57Top chung
Muse Spark52Hạng 4
Qwen3.6 Max Preview52Hạng 4 — mới ra
Claude Sonnet 4.6 (max)51Thua Qwen 1 điểm
GLM-5.149
Grok 4.2046
Gemini 3 Flash46

Use case thực tế

  • Agentic coding IDE: Cursor, Cline, Aider — Qwen3.6-Max-Preview đủ mạnh làm backbone thay Claude Sonnet cho repo phức tạp.
  • Long-context code review: 260k tokens nuốt gọn 1 monorepo mid-size + git history.
  • Terminal agent: điểm Terminal-Bench 2.0 65.4 — cao nhất nhóm — cho phép chạy ops/maintenance script tự động tin cậy hơn.
  • Chinese-first product: QwenChineseBench 84.0 vượt xa Claude (69.0) — lựa chọn tự nhiên cho SaaS Trung Quốc hoặc tool dịch/nội địa hóa.
  • Enterprise Q&A & decision support: world knowledge +2.3 trên SuperGPQA giúp answer chính xác hơn ở đề tài graduate-level.

Giới hạn & giá

  • Preview, còn iterate: Alibaba nói rõ model vẫn đang phát triển, hành vi có thể thay đổi trước GA.
  • Text-only: không nhận image/audio/video — thua Claude 4.7 và Gemini 3.1 Pro ở tác vụ multimodal.
  • Proprietary: trọng số không public. Ai cần open-weight có thể dùng Qwen3.6-35B-A3B (đã open-source) trong cùng dòng.
  • Pricing: Artificial Analysis ghi nhận $0.00/1M token in/out trong giai đoạn preview — gần như miễn phí. Giá production TBD.
  • API: Alibaba Cloud Model Studio đang "coming soon". Dùng ngay được qua Qwen Studio chat.

Kế tiếp

Dòng Qwen 3.6 hiện đã đủ product matrix: Max-Preview (flagship), Plus (cân bằng), Flash (tốc độ), và Qwen3.6-35B-A3B (open-source). Alibaba hứa sẽ có thêm Qwen3.6 model trong thời gian tới — nhiều khả năng là bản GA của Max hoặc biến thể multimodal. Dev có thể test ngay để feedback trước khi preview chốt API pricing.

Nguồn: Qwen blog, Artificial Analysis, AIbase, CnTechPost.