DeepSeek-V4-Pro ra mắt: 1.6T tham số, context 1M token, giá rẻ gấp nhiều lần GPT-5.4

TL;DR

Đúng tròn một năm sau "khoảnh khắc Sputnik" của AI Trung Quốc, DeepSeek quay lại với V4-Pro (1.6T tham số, 49B kích hoạt) và V4-Flash (284B, 13B kích hoạt). Cả hai đều là MoE open-weights theo giấy phép MIT, default context 1 triệu token, chỉ dùng 27% FLOPs và 10% KV cache so với V3.2, đồng thời có giá thấp đáng kể so với mọi model frontier khác.

Benchmark DeepSeek V4-Pro-Max so với Claude Opus 4.6, GPT-5.4, Gemini 3.1-Pro

What's new

DeepSeek công bố cùng lúc hai biến thể: V4-Pro (flagship, 1.6T tổng params) và V4-Flash (tối ưu tốc độ/chi phí, 284B). Điểm mới cốt lõi:

Hybrid Attention — kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA), cho phép context 1M token chạy được trên cấu hình thực tế.
Manifold-Constrained Hyper-Connections (mHC) — nâng cấp residual connection giúp tín hiệu lan truyền ổn định hơn trên mô hình siêu lớn.
Muon optimizer — tối ưu hoá mới cho training, hội tụ nhanh và ổn định hơn AdamW.
Ba chế độ suy luận: Non-Think, Think High, Think Max (tối thiểu 384K context window để phát huy).
Huấn luyện trên 32T+ token chất lượng cao, dùng precision hỗn hợp FP4 (expert) + FP8 (các phần còn lại).

Why it matters

V4-Pro là mô hình open-weights lớn nhất từng được công bố với file safetensors khoảng 865GB. Quan trọng hơn, nó kéo frontier-class performance xuống mức giá mà startup và SMB có thể chạy production: V4-Flash rẻ hơn GPT-5.4 Nano, V4-Pro là mô hình frontier-class lớn nhất có giá thấp nhất thị trường hiện tại. Với giấy phép MIT, doanh nghiệp có yêu cầu compliance có thể self-host hoàn toàn — điều mà GPT-5.4 hay Gemini 3.1-Pro không cho phép.

Technical facts

Thông số	V4-Pro	V4-Flash
Tổng params	1.6T	284B
Activated params	49B	13B
Context window	1M token	1M token
Dung lượng weights	~865GB	~160GB
Precision	FP4 + FP8 mixed	FP4 + FP8 mixed
License	MIT	MIT

Benchmark V4-Pro Max công bố chính thức:

MMLU-Pro: 87.5 · GPQA Diamond: 90.1 · GSM8K: 92.6
LiveCodeBench: 93.5 (dẫn đầu, trên Gemini 3.1-Pro 91.7 và Claude Opus 4.6 88.8)
Codeforces rating: 3206 (trên GPT-5.4 3168 và Gemini 3052)
SWE-Verified: 80.6 · Terminal-Bench 2.0: 67.9 · BrowseComp: 83.4
MRCR 1M: 83.5 — chứng minh context 1M không phải là con số trên giấy

Comparison

So với DeepSeek V3.2, V4-Pro chỉ dùng 27% FLOPs per token và 10% KV cache ở context 1M — tức là rẻ hơn để phục vụ, không phải chỉ rẻ hơn để gọi API.

So với closed frontier:

Benchmark	V4-Pro	GPT-5.4	Gemini 3.1-Pro	Claude Opus 4.6
MMLU-Pro	87.5	87.5	91.0	89.1
LiveCodeBench	93.5	—	91.7	88.8
Codeforces	3206	3168	3052	—

Tổng thể V4-Pro vượt mọi mô hình open-source trên math & coding, chỉ thua Gemini 3.1-Pro ở world knowledge. Các nhà phân tích ước tính V4 cách frontier đóng khoảng 3–6 tháng.

Use cases

Agentic coding ở quy mô: SWE-Verified 80.6 và Terminal-Bench 67.9 đưa V4-Pro vào nhóm tốt nhất cho agent code — lý tưởng cho công cụ như Cursor, Cline, Aider.
Xử lý codebase/tài liệu dài: 1M context thật sự dùng được (MRCR 83.5), phù hợp cho phân tích monorepo, review hợp đồng pháp lý, research tổng hợp nhiều paper.
Reasoning sâu: Think Max mode cho toán, STEM, planning phức tạp.
Browser & tool-use agents: BrowseComp 83.4 — sẵn sàng cho sản phẩm agent tự động hoá web.
Self-host cho ngành regulated: tài chính, y tế, chính phủ có thể triển khai on-prem với license MIT, không gửi dữ liệu ra ngoài.
Workload lớn cần chi phí thấp: V4-Flash $0.14 / $0.28 per 1M tokens — rẻ hơn mọi model cùng phân khúc.

Limitations & pricing

Giá API (USD per 1M tokens):

V4-Flash: $0.14 input / $0.28 output
V4-Pro: $1.74 input / $3.48 output

Hạn chế:

Vẫn trail GPT-5.4 và Gemini 3.1-Pro ở vài benchmark agentic và world knowledge.
Cải thiện là tăng trưởng, không phải đột phá kiến trúc.
Self-host V4-Pro cần stack multi-GPU nghiêm túc (865GB weights), không phải ai cũng chạy được tại nhà.
Think Max mode yêu cầu context window tối thiểu 384K.
API deepseek-chat và deepseek-reasoner cũ sẽ bị ngừng hoàn toàn từ 2026-07-24 15:59 UTC — ai đang dùng phải migrate sang deepseek-v4-pro hoặc deepseek-v4-flash trước hạn.

What's next

Bản phát hành hôm nay vẫn được gắn nhãn Preview; phiên bản final V4 và có thể là V4-Reasoner chuyên biệt sẽ theo sau trong những tuần tới. API đã tương thích sẵn với OpenAI ChatCompletions và Anthropic API — chỉ cần đổi model name, không phải sửa code. Trọng số và tech report đã lên HuggingFace và ModelScope, chat web/app đã bật chế độ Expert và Instant tương ứng với hai biến thể.

Nguồn: HuggingFace model card, DeepSeek API docs, Simon Willison, CNBC.

DeepSeek-V4-Pro ra mắt: 1.6T tham số, context 1M token, giá rẻ gấp nhiều lần GPT-5.4

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding