- DeepSeek vừa phát hành preview V4 ngày 24/04/2026 với hai model MoE — Pro (1.6T params, 49B activated) và Flash (284B, 13B activated) — cả hai đều context 1M token.
- V4-Pro leo #3 open model trên Code Arena, #2 trên Text Arena, sánh ngang GPT-5.4 và Kimi-2.6.
- Codeforces 3206 vượt GPT-5.4, giá output chỉ $3.48/M — rẻ hơn Claude Opus 4.6 tới 7 lần.
TL;DR
Ngày 24/04/2026, DeepSeek phát hành preview V4-Pro (1.6T params, 49B activated) và V4-Flash (284B, 13B activated) — cả hai đều MoE, context 1M token, license MIT. V4-Pro leo #3 open model (#14 overall) trên Code Arena và #2 open model (#14 overall) trên Text Arena, sánh ngang GPT-5.4-high, Gemini-3.1-Pro và Kimi-2.6. Codeforces 3206 vượt GPT-5.4 (3168). Giá API: V4-Pro $3.48/M output (rẻ hơn Claude Opus 4.6 ~7×), V4-Flash $0.28/M (rẻ hơn ~89×). V4-Pro giờ là open-weights model lớn nhất thế giới.
V4 có gì mới
DeepSeek tung đồng loạt hai biến thể MoE cùng ngày OpenAI ship GPT-5.5 — đủ thấy ý đồ chia nửa news cycle:
- DeepSeek-V4-Pro: 1.6T tổng param, 49B activated per token. Pre-train trên 33T token. Trên HuggingFace là 865GB, cần nhiều H100 để chạy inference.
- DeepSeek-V4-Flash: 284B tổng, 13B activated, 32T token pre-train. Chỉ 160GB — có thể chạy quantized trên MacBook Pro 128GB RAM.
- Context 1M token trên cả hai, max output 384K.
- 3 reasoning mode: Non-think (nhanh), Think High, Think Max.
- MIT license — enterprise tự host, fine-tune thoải mái. V4-Pro là open-weights model lớn nhất thế giới hiện tại, vượt Kimi K2.6 (1.1T), GLM-5.1 (754B), và gấp 2.3× V3.2 (685B).
Tại sao quan trọng
Đây là lần đầu tiên một open-source model ở tier Codeforces 3200+ có giá chạy production ngang với một chat endpoint mid-tier. V4-Pro giải quyết đồng thời ba bài toán lớn của LLM 2026:
- 1M context giá khả thi: KV cache chỉ 10% so với V3.2 — bạn có thể chạy context 1M mà không cần 10× GPU memory.
- Agent coding tier-1: DeepSeek đã tối ưu riêng cho Claude Code, OpenCode, OpenClaw — cùng `base_url`, chỉ đổi model ID. Support cả OpenAI và Anthropic protocol.
- Phá vỡ price floor: Flash $0.28/M output = 89× rẻ hơn Opus 4.6. Với 50M output token/tháng, V4-Pro tốn $174 vs Claude Opus 4.6 $1,250.
Technical facts & Arena ranking
Arena (24/04/2026):
- Code Arena: V4-Pro (thinking) #3 open (#14 overall), ngang GPT-5.4-high và Gemini-3.1-Pro trên task agentic webdev.
- Text Arena: V4-Pro (thinking) #2 open (#14 overall), match Kimi-2.6.
- Text Arena: V4-Flash (thinking) #10 open (#47 overall).
- V4-Pro jump +88 Elo so với V3.2 trên live code leaderboard.
Kiến trúc — đây là phần làm nên sự khác biệt:
- Hybrid Attention: kết hợp Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA) → hạ KV cache xuống 10% của V3.2.
- Manifold-Constrained Hyper-Connections (mHC): cải thiện residual connections cho tín hiệu ổn định qua nhiều layer.
- Muon optimizer: convergence nhanh hơn, training ổn định hơn.
- FP4 + FP8 mixed precision: MoE experts FP4, phần còn lại FP8.
Benchmark vs frontier (V4-Pro Max mode):
| Benchmark | V4-Pro | K2.6 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| LiveCodeBench | 93.5 | 89.6 | 88.8 | — | 91.7 |
| Codeforces (rating) | 3206 | — | — | 3168 | 3052 |
| Terminal-Bench 2.0 | 67.9 | — | 65.4 | — | — |
| SWE-bench Verified | 80.6 | — | 80.8 | — | — |
| Chinese-SimpleQA | 84.4 | 75.9 | 76.2 | 76.8 | 85.9 |
| HMMT 2026 Feb | 95.2 | 92.7 | 96.2 | 97.7 | 94.7 |
| HLE (no tools) | 37.7 | — | 40.0 | 39.8 | 44.4 |
| MRCR 1M | 83.5 | — | 92.9 | — | — |
V4-Flash (Max mode) giữ chất lượng gần Pro trên hầu hết task: MMLU-Pro 86.2 (Pro 87.5), LiveCodeBench 91.6 (Pro 93.5), SWE-bench Verified 79.0 (Pro 80.6). Gap chỉ rõ ở Terminal-Bench 2.0 (56.9 vs 67.9) và SimpleQA-Verified (34.1 vs 57.9) — multi-step tool use và factual recall.
So với V3.2 & competitor
Vs V3.2: +88 Elo trên Arena Code, KV cache 10%, FLOPs 27%. Đây là bước nhảy generation, không phải update nhỏ.
Vs GPT-5.4: V4-Pro thắng Codeforces (3206 vs 3168), LiveCodeBench, Chinese-SimpleQA. Thua HLE, HMMT, SimpleQA-Verified.
Vs Claude Opus 4.6: V4-Pro thắng LiveCodeBench (93.5 vs 88.8), Terminal-Bench 2.0 (67.9 vs 65.4). Opus vẫn giữ crown long-context retrieval tuyệt đối (MRCR 1M 92.9 vs 83.5) và HLE.
Vs Kimi K2.6 (đối thủ open-source gần nhất): K2.6 nhỉnh hơn 3 điểm trên SWE-Pro (58.6 vs 55.4) và ~73 Elo cao hơn trên Arena Code, nhưng V4-Pro thắng LiveCodeBench và Codeforces. Short-form code generation vs long-horizon codebase resolution — hai skill khác nhau.
Vs Gemini 3.1 Pro: Gemini giữ crown world knowledge (SimpleQA 75.6 vs 57.9, HLE 44.4 vs 37.7). Theo DeepSeek, V4 trails SOTA frontier khoảng 3–6 tháng development.
Use cases — ai nên dùng
- Dev chạy agent coding volume cao: 50M token/tháng = $174 thay vì $1,250 trên Opus. Support Claude Code, OpenCode, OpenClaw.
- Tiered routing production: Flash làm draft + task đơn giản, Pro cho complex repo reasoning. Gap benchmark chỉ 1–2 điểm ở nhiều task.
- Long-context workloads: phân tích codebase, document RAG, legal review — context 1M giờ viable cho production.
- Sản phẩm Chinese-first: V4-Pro là open-weight đầu tiên parity với Gemini trên Chinese-SimpleQA (84.4).
- Competitive programming & terminal agent: V4-Pro đánh bại closed frontier trên Codeforces và Terminal-Bench.
- Self-host compliance: MIT license + FP4/FP8 weights. Flash 160GB chạy được trên MacBook Pro M5 128GB quantized.
Limitations & pricing
Giá API chính thức:
| Model | Input (miss) | Input (hit) | Output |
|---|---|---|---|
| deepseek-v4-pro | $1.74 / M | $0.145 / M | $3.48 / M |
| deepseek-v4-flash | $0.14 / M | $0.028 / M | $0.28 / M |
So sánh: Claude Opus 4.6 $5/$25 per M, GPT-5.4 $2.50/$15. V4-Pro output rẻ hơn Opus ~7×, Flash rẻ hơn ~89×.
Hạn chế cần biết trước khi production:
- Preview label — DeepSeek nói sẽ còn post-training refinement.
- SimpleQA-Verified 57.9% — factual recall yếu hơn Gemini (75.6%) đáng kể.
- HLE 37.7% — trails toàn bộ top closed model trên cross-domain reasoning.
- MRCR 1M 83.5 vs Opus 92.9 — long-context retrieval chất lượng thuần kém Claude.
- Không có Jinja chat template — phải dùng Python encoding script trong repo (`encoding_dsv4.py`).
- API server đặt ở Trung Quốc — concern về data sovereignty cho regulated industry. Mitigation: self-host open weights.
- Chưa có trên AWS Bedrock hay Azure OpenAI.
What's next
Endpoint legacy deepseek-chat và deepseek-reasoner sẽ deprecate ngày 24/07/2026 — hiện tạm route sang v4-flash. DeepSeek cam kết post-training refinement để ra stable non-preview. Chưa có teaser V5 hay R-series mới trong các nguồn công khai.
Takeaway thực dụng: nếu bạn đang chạy agent coding production trên Claude hoặc GPT với volume > 10M token/tháng, V4-Pro xứng đáng benchmark trên task của bạn tuần này. Flash thậm chí đáng thử cho use case commodity. Nhưng với workload factual-heavy, regulated data, hoặc cần reliability đã battle-test nhiều năm — price gap một mình không đủ close the deal.
Nguồn: Arena, HuggingFace DeepSeek-V4-Pro, DeepSeek-V4-Flash, Simon Willison, CNBC.

