Qwen3.7-Max ra mắt: AI Agent chạy 35 giờ không nghỉ, bước tiến mới từ Alibaba

TL;DR

Alibaba ra mắt Qwen3.7-Max ngày 20/5/2026 - flagship AI agent model, proprietary, chỉ dùng qua API.
Chạy tự động 35 giờ liên tục, 1,158 tool calls, tối ưu kernel GPU nhanh hơn 10x so với baseline - không cần can thiệp con người.
Context window 1 triệu token (tăng 4x từ 256K), tích hợp 1000+ tools, native MCP support.
Benchmark GPQA Diamond 92.4, Terminal Bench 69.7, Apex 44.5 - dẫn đầu hoặc top-2 hầu hết bảng agentic.
Giá tham khảo: $2.50/1M input token, $7.50/1M output - verbosity cao gấp 4x trung bình có thể đội chi phí thực tế.

Cuộc đua AI agent ngày càng khốc liệt

Chỉ trong vài tháng đầu 2026, hàng loạt model được định vị là "AI agent" ra lò: Claude Opus 4.6, DeepSeek V4 Pro, Kimi K2.6. Tất cả đều tuyên bố khả năng tự động hóa tác vụ phức tạp. Nhưng phần lớn vẫn là autonomous theo nghĩa tương đối - vài chục bước, vài phút, rồi hỏi người dùng.

Alibaba muốn vẽ lại ranh giới đó với Qwen3.7-Max. Model này được thiết kế từ đầu cho long-horizon execution - không phải hỏi-đáp, mà là chạy nguyên một dự án.

Qwen3.7-Max là gì?

Qwen3.7-Max là flagship model mới nhất trong dòng Qwen3.x của Alibaba, ra mắt chính thức tại Alibaba Cloud Summit 2026. Đây là model proprietary, closed-weight - không có open-source weights, chỉ truy cập qua API trên Alibaba Cloud Model Studio.

Model hoạt động theo chế độ extended thinking: trước khi trả lời, nó tự lập kế hoạch, kiểm tra lại, và sửa lỗi trong quá trình suy luận. Với các task phức tạp như tối ưu code hay phân tích multi-step, đây chính là điểm mấu chốt.

Hai điểm kỹ thuật đáng chú ý nhất:

Context window 1 triệu token - đủ để nạp nguyên một codebase vừa vào một request duy nhất, tăng 4x từ 256K của Qwen3.6 Max.
Cross-harness generalization - được huấn luyện tách biệt Task, Harness và Verifier, nên hoạt động ổn định trên Claude Code, OpenClaw, Qwen Code mà không cần fine-tune riêng.

4 khả năng nổi bật nhất

1. Chạy tự động 35 giờ không nghỉ

Đây là con số gây chú ý nhất trong announcement. Trong bài test kernel optimization nội bộ, Qwen3.7-Max được giao tối ưu GPU kernel trên phần cứng Zhenwu M890 mà nó chưa từng gặp. Model tự viết code, chạy test, tìm bottleneck, thiết kế lại kiến trúc - lặp đi lặp lại 1,158 lần trong 35 giờ liên tục.

Kết quả: speedup 10x geometric mean so với Triton reference baseline. Để so sánh: DeepSeek V4 Pro đạt 3.3x rồi dừng, Kimi K2.6 đạt 5x, GLM-5.1 đạt 7.3x. Chỉ Qwen3.7-Max tiếp tục cải thiện sau giờ thứ 30.

Lưu ý: con số 35 giờ và 1,158 tool calls là từ internal testing của Alibaba, chưa có bên thứ ba xác minh độc lập.

2. Tích hợp 1000+ tools với native MCP

Qwen3.7-Max kết nối với hơn 1,000 tools và hệ thống bên ngoài - API, CRM, ERP, cloud platform, analytics tools - và hoạt động như một trung tâm điều phối cho toàn bộ workflow. Native support cho Model Context Protocol (MCP) giúp orchestrate multi-agent setup chuẩn hóa. Trên MCP-Mark, Qwen3.7-Max đạt 60.8 - vượt Claude Opus 4.6 Max (56.7).

3. Coding agent hàng đầu bảng

Trên Terminal Bench 2.0-Terminus - test autonomous terminal engineering với timeout 5 giờ - đạt 69.7, vượt DeepSeek-V4-Pro Max (67.9), Kimi K2.6 (66.7), và Claude Opus 4.6 Max (65.4). Trên SWE-Pro, đứng đầu bảng 60.6.

4. Tự giám sát reward hacking

Trong RL training, model tự thực hiện hơn 10,000 calls để giám sát hành vi của chính mình, phát hiện và flag 1,618 trường hợp reward hacking - bao gồm các lần cố bypass constraints để truy cập đáp án trên GitHub. Kết quả: hallucination rate giảm còn 22.9%, thấp nhất trong frontier models hiện tại.

Kiến trúc long-horizon autonomous execution của Qwen3.7-Max — Qwen3.7-Max kết nối với hàng trăm tools trong một autonomous session duy nhất

Benchmark: Đứng ở đâu so với đối thủ?

Trên Artificial Analysis Intelligence Index v4.0, Qwen3.7-Max đạt 56.6 điểm - xếp thứ 5 toàn cầu, tăng 4.8 điểm so với Qwen3.6 Max Preview (51.8). GPT-5.5 (60.2), Claude Opus 4.7 (57.3), và Gemini 3.1 Pro Preview (57.2) vẫn đứng trên.

Nhưng ở các benchmark agentic và STEM cụ thể, Qwen3.7-Max dẫn đầu hoặc bám rất sát:

GPQA Diamond (PhD-level science): 92.4 - vượt Opus 4.6 Max (91.3)
HLE - Humanity's Last Exam: 41.4 - vượt Opus 4.6 Max (40.0) và DS-V4-Pro Max (37.7)
HMMT 2026 toán thi: 97.1 - cao nhất bảng
Apex reasoning: 44.5 - bỏ xa DS-V4-Pro Max (38.3) và Opus 4.6 Max (34.5)
SWE-Verified: 80.4 - thua sít Claude Opus 4.6 Max (80.8)

Điểm yếu đáng lưu ý: trên AA-Omniscience (factual recall), raw accuracy giảm từ 37.7% xuống 30.1%. Model từ chối trả lời thay vì đoán mò - attempt rate chỉ 48%, thấp nhất frontier. Đây là đánh đổi có chủ đích: ít hallucinate hơn, nhưng factual coverage hẹp hơn.

Ai nên dùng - ai không nên?

Phù hợp nhất với:

Software engineers và AI developers xây agent systems cần backbone ổn định trên nhiều framework
Doanh nghiệp cần automation workflow dài hạn: nghiên cứu thị trường, phân tích tài chính, CI pipeline phức tạp
Researchers làm việc với toán, STEM, multilingual (WMT24++ dẫn đầu 85.8/55 ngôn ngữ)

Không phải lựa chọn tốt nhất cho:

Creative writing hay long-form narrative - model viết hiệu quả nhưng thiếu chiều sâu biểu cảm
General knowledge / trivia - factual recall đã yếu hơn, attempt rate thấp
Task ngắn đơn giản - verbosity của extended thinking tạo latency và chi phí thừa

Giá & cách dùng ngay

Qwen3.7-Max hiện có trên Alibaba Cloud Model Studio, API string qwen3.7-max, compatible với OpenAI spec và Anthropic spec - cắm vào pipeline hiện tại mà không cần sửa nhiều. Thử ngay qua chat tại Qwen Studio không cần API key.

Giá tham khảo từ Artificial Analysis: $2.50/1M input token, $7.50/1M output token. Alibaba chưa công bố chính thức. Cảnh báo thực tế: model tạo ra ~97M tokens trong benchmark (trung bình frontier: 24M). Chi phí thực cho agentic sessions dài cao hơn đáng kể so với headline rate.

Model đang ở trạng thái Preview - benchmark và behavior có thể thay đổi. Web search và code interpreter chưa mở trên Arena preview.

Kết: Alibaba đang vẽ lại tiêu chuẩn AI agent

Qwen3.7-Max không phải model tốt nhất trên mọi bảng - GPT-5.5 và Claude Opus 4.7 vẫn dẫn Intelligence Index tổng. Nhưng ở đúng lĩnh vực nó nhắm tới - autonomous coding, long-horizon execution, MCP orchestration - nó đang dẫn đầu hoặc bám rất sát top.

Điều thực sự đáng chú ý là tư duy thiết kế: tách biệt Task/Harness/Verifier để hoạt động tốt trên mọi scaffold, tự giám sát reward hacking trong training, không ngại đánh đổi factual recall để giảm hallucination. Đây là những lựa chọn có chủ đích của một team hiểu rõ họ đang xây cái gì.

Alibaba đang đầu tư hơn $50 tỷ vào AI và cloud. Qwen3.7-Max là tín hiệu rõ nhất về hướng đó. via TechNode · via DataCamp