DeepSeek V4 Pro & Flash leo Arena: 1.6T params, 1M context, rẻ hơn Claude 7 lần

TL;DR

Ngày 24/04/2026, DeepSeek phát hành preview V4-Pro (1.6T params, 49B activated) và V4-Flash (284B, 13B activated) — cả hai đều MoE, context 1M token, license MIT. V4-Pro leo #3 open model (#14 overall) trên Code Arena và #2 open model (#14 overall) trên Text Arena, sánh ngang GPT-5.4-high, Gemini-3.1-Pro và Kimi-2.6. Codeforces 3206 vượt GPT-5.4 (3168). Giá API: V4-Pro $3.48/M output (rẻ hơn Claude Opus 4.6 ~7×), V4-Flash $0.28/M (rẻ hơn ~89×). V4-Pro giờ là open-weights model lớn nhất thế giới.

V4 có gì mới

DeepSeek tung đồng loạt hai biến thể MoE cùng ngày OpenAI ship GPT-5.5 — đủ thấy ý đồ chia nửa news cycle:

DeepSeek-V4-Pro: 1.6T tổng param, 49B activated per token. Pre-train trên 33T token. Trên HuggingFace là 865GB, cần nhiều H100 để chạy inference.
DeepSeek-V4-Flash: 284B tổng, 13B activated, 32T token pre-train. Chỉ 160GB — có thể chạy quantized trên MacBook Pro 128GB RAM.
Context 1M token trên cả hai, max output 384K.
3 reasoning mode: Non-think (nhanh), Think High, Think Max.
MIT license — enterprise tự host, fine-tune thoải mái. V4-Pro là open-weights model lớn nhất thế giới hiện tại, vượt Kimi K2.6 (1.1T), GLM-5.1 (754B), và gấp 2.3× V3.2 (685B).

Tại sao quan trọng

Đây là lần đầu tiên một open-source model ở tier Codeforces 3200+ có giá chạy production ngang với một chat endpoint mid-tier. V4-Pro giải quyết đồng thời ba bài toán lớn của LLM 2026:

1M context giá khả thi: KV cache chỉ 10% so với V3.2 — bạn có thể chạy context 1M mà không cần 10× GPU memory.
Agent coding tier-1: DeepSeek đã tối ưu riêng cho Claude Code, OpenCode, OpenClaw — cùng `base_url`, chỉ đổi model ID. Support cả OpenAI và Anthropic protocol.
Phá vỡ price floor: Flash $0.28/M output = 89× rẻ hơn Opus 4.6. Với 50M output token/tháng, V4-Pro tốn $174 vs Claude Opus 4.6 $1,250.

Technical facts & Arena ranking

Arena (24/04/2026):

Code Arena: V4-Pro (thinking) #3 open (#14 overall), ngang GPT-5.4-high và Gemini-3.1-Pro trên task agentic webdev.
Text Arena: V4-Pro (thinking) #2 open (#14 overall), match Kimi-2.6.
Text Arena: V4-Flash (thinking) #10 open (#47 overall).
V4-Pro jump +88 Elo so với V3.2 trên live code leaderboard.

Kiến trúc — đây là phần làm nên sự khác biệt:

Hybrid Attention: kết hợp Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA) → hạ KV cache xuống 10% của V3.2.
Manifold-Constrained Hyper-Connections (mHC): cải thiện residual connections cho tín hiệu ổn định qua nhiều layer.
Muon optimizer: convergence nhanh hơn, training ổn định hơn.
FP4 + FP8 mixed precision: MoE experts FP4, phần còn lại FP8.

Benchmark vs frontier (V4-Pro Max mode):

Benchmark	V4-Pro	K2.6	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
LiveCodeBench	93.5	89.6	88.8	—	91.7
Codeforces (rating)	3206	—	—	3168	3052
Terminal-Bench 2.0	67.9	—	65.4	—	—
SWE-bench Verified	80.6	—	80.8	—	—
Chinese-SimpleQA	84.4	75.9	76.2	76.8	85.9
HMMT 2026 Feb	95.2	92.7	96.2	97.7	94.7
HLE (no tools)	37.7	—	40.0	39.8	44.4
MRCR 1M	83.5	—	92.9	—	—

V4-Flash (Max mode) giữ chất lượng gần Pro trên hầu hết task: MMLU-Pro 86.2 (Pro 87.5), LiveCodeBench 91.6 (Pro 93.5), SWE-bench Verified 79.0 (Pro 80.6). Gap chỉ rõ ở Terminal-Bench 2.0 (56.9 vs 67.9) và SimpleQA-Verified (34.1 vs 57.9) — multi-step tool use và factual recall.

So với V3.2 & competitor

Vs V3.2: +88 Elo trên Arena Code, KV cache 10%, FLOPs 27%. Đây là bước nhảy generation, không phải update nhỏ.

Vs GPT-5.4: V4-Pro thắng Codeforces (3206 vs 3168), LiveCodeBench, Chinese-SimpleQA. Thua HLE, HMMT, SimpleQA-Verified.

Vs Claude Opus 4.6: V4-Pro thắng LiveCodeBench (93.5 vs 88.8), Terminal-Bench 2.0 (67.9 vs 65.4). Opus vẫn giữ crown long-context retrieval tuyệt đối (MRCR 1M 92.9 vs 83.5) và HLE.

Vs Kimi K2.6 (đối thủ open-source gần nhất): K2.6 nhỉnh hơn 3 điểm trên SWE-Pro (58.6 vs 55.4) và ~73 Elo cao hơn trên Arena Code, nhưng V4-Pro thắng LiveCodeBench và Codeforces. Short-form code generation vs long-horizon codebase resolution — hai skill khác nhau.

Vs Gemini 3.1 Pro: Gemini giữ crown world knowledge (SimpleQA 75.6 vs 57.9, HLE 44.4 vs 37.7). Theo DeepSeek, V4 trails SOTA frontier khoảng 3–6 tháng development.

Use cases — ai nên dùng

Dev chạy agent coding volume cao: 50M token/tháng = $174 thay vì $1,250 trên Opus. Support Claude Code, OpenCode, OpenClaw.
Tiered routing production: Flash làm draft + task đơn giản, Pro cho complex repo reasoning. Gap benchmark chỉ 1–2 điểm ở nhiều task.
Long-context workloads: phân tích codebase, document RAG, legal review — context 1M giờ viable cho production.
Sản phẩm Chinese-first: V4-Pro là open-weight đầu tiên parity với Gemini trên Chinese-SimpleQA (84.4).
Competitive programming & terminal agent: V4-Pro đánh bại closed frontier trên Codeforces và Terminal-Bench.
Self-host compliance: MIT license + FP4/FP8 weights. Flash 160GB chạy được trên MacBook Pro M5 128GB quantized.

Limitations & pricing

Giá API chính thức:

Model	Input (miss)	Input (hit)	Output
deepseek-v4-pro	$1.74 / M	$0.145 / M	$3.48 / M
deepseek-v4-flash	$0.14 / M	$0.028 / M	$0.28 / M

So sánh: Claude Opus 4.6 $5/$25 per M, GPT-5.4 $2.50/$15. V4-Pro output rẻ hơn Opus ~7×, Flash rẻ hơn ~89×.

Hạn chế cần biết trước khi production:

Preview label — DeepSeek nói sẽ còn post-training refinement.
SimpleQA-Verified 57.9% — factual recall yếu hơn Gemini (75.6%) đáng kể.
HLE 37.7% — trails toàn bộ top closed model trên cross-domain reasoning.
MRCR 1M 83.5 vs Opus 92.9 — long-context retrieval chất lượng thuần kém Claude.
Không có Jinja chat template — phải dùng Python encoding script trong repo (`encoding_dsv4.py`).
API server đặt ở Trung Quốc — concern về data sovereignty cho regulated industry. Mitigation: self-host open weights.
Chưa có trên AWS Bedrock hay Azure OpenAI.

What's next

Endpoint legacy deepseek-chat và deepseek-reasoner sẽ deprecate ngày 24/07/2026 — hiện tạm route sang v4-flash. DeepSeek cam kết post-training refinement để ra stable non-preview. Chưa có teaser V5 hay R-series mới trong các nguồn công khai.

Takeaway thực dụng: nếu bạn đang chạy agent coding production trên Claude hoặc GPT với volume > 10M token/tháng, V4-Pro xứng đáng benchmark trên task của bạn tuần này. Flash thậm chí đáng thử cho use case commodity. Nhưng với workload factual-heavy, regulated data, hoặc cần reliability đã battle-test nhiều năm — price gap một mình không đủ close the deal.

Nguồn: Arena, HuggingFace DeepSeek-V4-Pro, DeepSeek-V4-Flash, Simon Willison, CNBC.

DeepSeek V4 Pro & Flash leo Arena: 1.6T params, 1M context, rẻ hơn Claude 7 lần

TL;DR

V4 có gì mới

Tại sao quan trọng

Technical facts & Arena ranking

So với V3.2 & competitor

Use cases — ai nên dùng

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding