Qwen3.6-Max-Preview ra mắt: flagship mới của Alibaba, đấu ngang Claude Opus 4.7 và GPT-5.4

TL;DR

Ngày 20/04/2026, Alibaba bất ngờ tung Qwen3.6-Max-Preview — bản preview của mô hình flagship kế tiếp trong dòng Qwen 3.6. Model đạt top-1 trên 6 benchmark coding (SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode), hỗ trợ context 260k tokens và ghi 52 điểm Artificial Analysis Intelligence Index — chỉ thua đúng 5 điểm so với bộ ba Claude Opus 4.7 (max), Gemini 3.1 Pro Preview và GPT-5.4 (xhigh). Dùng ngay trên Qwen Studio, API sắp mở trên Alibaba Cloud Model Studio.

Qwen 3.6 Max Preview benchmark comparison vs Qwen 3.6 Plus, Qwen 3.5 Plus, Claude 4.5 Opus, GLM 5.1

Điểm mới

Qwen3.6-Max-Preview là bản nâng cấp chính của dòng Qwen chỉ 18 ngày sau bản Qwen3.6-Plus (02/04/2026). Alibaba khẳng định đây là model proprietary mạnh nhất từ trước đến nay trong hệ Qwen, được thiết kế như một reasoning model với extended chain-of-thought — suy luận nhiều bước trước khi trả lời.

Agentic coding mạnh hơn hẳn Qwen3.6-Plus, đặc biệt ở tác vụ multi-file repo editing và terminal agent.
World knowledge được củng cố — SuperGPQA +2.3, QwenChineseBench +5.3.
Instruction following ổn định hơn — ToolcallFormatIFBench +2.8, quan trọng cho agent workflow dùng tool calling.
Hỗ trợ feature preserve_thinking: giữ nguyên thinking content xuyên suốt các turn, cực hữu ích cho agentic tasks.
API compatible cả OpenAI chat completions lẫn Anthropic protocol — drop-in thay thế.

Vì sao đáng chú ý

Suốt 2025–2026, coding agent đã trở thành chiến trường chính giữa các frontier lab. Claude Opus 4.x và GPT-5.x chiếm lĩnh nhờ khả năng tool use đáng tin cậy. Qwen3.6-Max-Preview là lần đầu tiên một model proprietary từ Alibaba bám sát top-3 phương Tây chỉ với khoảng cách 5 điểm Intelligence Index — đồng thời vượt Claude Sonnet 4.6 (max), Gemini 3 Flash và DeepSeek V3.2.

Với dev Việt Nam, điểm đáng giá nhất là context 260k tokens — đủ để nhét cả monorepo vừa cộng lịch sử conversation vào một request, không cần chia chunk phức tạp.

Số liệu kỹ thuật

Benchmark so sánh Qwen3.6-Max-Preview với Qwen3.6-Plus và Claude 4.5 Opus (theo bảng official từ Qwen):

Benchmark	Qwen 3.6 Max (preview)	Qwen 3.6 Plus	Claude 4.5 Opus	Delta vs Plus
SkillsBench (agent skills)	55.6	45.7	45.3	+9.9
SciCode (research coding)	47.0	40.7	49.5	+6.3
NL2Repo (long-horizon coding)	42.9	37.9	43.2	+5.0
Terminal-Bench 2.0	65.4	61.6	59.3	+3.8
SWE-bench Pro (agentic coding)	57.3	56.6	57.1	+0.7
QwenClawBench (real-world agent)	59.0	57.2	52.3	+1.8
QwenWebBench (Elo rating)	1532	1495	1530	+37
SuperGPQA (graduate knowledge)	73.9	71.6	70.6	+2.3
QwenChineseBench	84.0	78.7	69.0	+5.3
ToolcallFormatIFBench	86.1	83.3	84.2	+2.8

Các đặc tả khác:

Intelligence Index (Artificial Analysis): 52 — hạng 4 toàn bảng 478 models.
Context window: 256k–260k tokens.
Modality: text-only (không hỗ trợ image/audio/video input).
Parameter count: không công bố (proprietary).
Verbosity: sinh 74M output tokens khi eval Intelligence Index — khá dài dòng so với trung bình 26M.

So sánh frontier models

Trên Artificial Analysis Intelligence Index (cập nhật 04/2026):

Model	Index	Ghi chú
Claude Opus 4.7 (max)	57	Top chung
Gemini 3.1 Pro Preview	57	Top chung
GPT-5.4 (xhigh)	57	Top chung
Muse Spark	52	Hạng 4
Qwen3.6 Max Preview	52	Hạng 4 — mới ra
Claude Sonnet 4.6 (max)	51	Thua Qwen 1 điểm
GLM-5.1	49
Grok 4.20	46
Gemini 3 Flash	46

Use case thực tế

Agentic coding IDE: Cursor, Cline, Aider — Qwen3.6-Max-Preview đủ mạnh làm backbone thay Claude Sonnet cho repo phức tạp.
Long-context code review: 260k tokens nuốt gọn 1 monorepo mid-size + git history.
Terminal agent: điểm Terminal-Bench 2.0 65.4 — cao nhất nhóm — cho phép chạy ops/maintenance script tự động tin cậy hơn.
Chinese-first product: QwenChineseBench 84.0 vượt xa Claude (69.0) — lựa chọn tự nhiên cho SaaS Trung Quốc hoặc tool dịch/nội địa hóa.
Enterprise Q&A & decision support: world knowledge +2.3 trên SuperGPQA giúp answer chính xác hơn ở đề tài graduate-level.

Giới hạn & giá

Preview, còn iterate: Alibaba nói rõ model vẫn đang phát triển, hành vi có thể thay đổi trước GA.
Text-only: không nhận image/audio/video — thua Claude 4.7 và Gemini 3.1 Pro ở tác vụ multimodal.
Proprietary: trọng số không public. Ai cần open-weight có thể dùng Qwen3.6-35B-A3B (đã open-source) trong cùng dòng.
Pricing: Artificial Analysis ghi nhận $0.00/1M token in/out trong giai đoạn preview — gần như miễn phí. Giá production TBD.
API: Alibaba Cloud Model Studio đang "coming soon". Dùng ngay được qua Qwen Studio chat.

Kế tiếp

Dòng Qwen 3.6 hiện đã đủ product matrix: Max-Preview (flagship), Plus (cân bằng), Flash (tốc độ), và Qwen3.6-35B-A3B (open-source). Alibaba hứa sẽ có thêm Qwen3.6 model trong thời gian tới — nhiều khả năng là bản GA của Max hoặc biến thể multimodal. Dev có thể test ngay để feedback trước khi preview chốt API pricing.

Nguồn: Qwen blog, Artificial Analysis, AIbase, CnTechPost.

Qwen3.6-Max-Preview ra mắt: flagship mới của Alibaba, đấu ngang Claude Opus 4.7 và GPT-5.4

TL;DR

Điểm mới

Vì sao đáng chú ý

Số liệu kỹ thuật

So sánh frontier models

Use case thực tế

Giới hạn & giá

Kế tiếp

Tiếp tục lướt

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy

Qwen-Image Vừa Bẻ Khoá "Sharper Instruction Following" — Và Đây Không Phải Screenshot

Chandra OCR 2: Mô hình OCR open-source 4B đánh bại Gemini, dots.ocr và olmOCR

8 kỹ thuật prompting để LLM trả lời tốt hơn (không cần đổi model)