TL;DR

Ngày 24/04/2026, DeepSeek phát hành preview V4-Pro (1.6T params, 49B activated) và V4-Flash (284B, 13B activated) — cả hai đều MoE, context 1M token, license MIT. V4-Pro leo #3 open model (#14 overall) trên Code Arena và #2 open model (#14 overall) trên Text Arena, sánh ngang GPT-5.4-high, Gemini-3.1-Pro và Kimi-2.6. Codeforces 3206 vượt GPT-5.4 (3168). Giá API: V4-Pro $3.48/M output (rẻ hơn Claude Opus 4.6 ~7×), V4-Flash $0.28/M (rẻ hơn ~89×). V4-Pro giờ là open-weights model lớn nhất thế giới.

V4 có gì mới

DeepSeek tung đồng loạt hai biến thể MoE cùng ngày OpenAI ship GPT-5.5 — đủ thấy ý đồ chia nửa news cycle:

  • DeepSeek-V4-Pro: 1.6T tổng param, 49B activated per token. Pre-train trên 33T token. Trên HuggingFace là 865GB, cần nhiều H100 để chạy inference.
  • DeepSeek-V4-Flash: 284B tổng, 13B activated, 32T token pre-train. Chỉ 160GB — có thể chạy quantized trên MacBook Pro 128GB RAM.
  • Context 1M token trên cả hai, max output 384K.
  • 3 reasoning mode: Non-think (nhanh), Think High, Think Max.
  • MIT license — enterprise tự host, fine-tune thoải mái. V4-Pro là open-weights model lớn nhất thế giới hiện tại, vượt Kimi K2.6 (1.1T), GLM-5.1 (754B), và gấp 2.3× V3.2 (685B).

Tại sao quan trọng

Đây là lần đầu tiên một open-source model ở tier Codeforces 3200+ có giá chạy production ngang với một chat endpoint mid-tier. V4-Pro giải quyết đồng thời ba bài toán lớn của LLM 2026:

  1. 1M context giá khả thi: KV cache chỉ 10% so với V3.2 — bạn có thể chạy context 1M mà không cần 10× GPU memory.
  2. Agent coding tier-1: DeepSeek đã tối ưu riêng cho Claude Code, OpenCode, OpenClaw — cùng `base_url`, chỉ đổi model ID. Support cả OpenAI và Anthropic protocol.
  3. Phá vỡ price floor: Flash $0.28/M output = 89× rẻ hơn Opus 4.6. Với 50M output token/tháng, V4-Pro tốn $174 vs Claude Opus 4.6 $1,250.

Technical facts & Arena ranking

Arena (24/04/2026):

  • Code Arena: V4-Pro (thinking) #3 open (#14 overall), ngang GPT-5.4-high và Gemini-3.1-Pro trên task agentic webdev.
  • Text Arena: V4-Pro (thinking) #2 open (#14 overall), match Kimi-2.6.
  • Text Arena: V4-Flash (thinking) #10 open (#47 overall).
  • V4-Pro jump +88 Elo so với V3.2 trên live code leaderboard.

Kiến trúc — đây là phần làm nên sự khác biệt:

  • Hybrid Attention: kết hợp Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA) → hạ KV cache xuống 10% của V3.2.
  • Manifold-Constrained Hyper-Connections (mHC): cải thiện residual connections cho tín hiệu ổn định qua nhiều layer.
  • Muon optimizer: convergence nhanh hơn, training ổn định hơn.
  • FP4 + FP8 mixed precision: MoE experts FP4, phần còn lại FP8.

Benchmark vs frontier (V4-Pro Max mode):

BenchmarkV4-ProK2.6Opus 4.6GPT-5.4Gemini 3.1 Pro
LiveCodeBench93.589.688.891.7
Codeforces (rating)320631683052
Terminal-Bench 2.067.965.4
SWE-bench Verified80.680.8
Chinese-SimpleQA84.475.976.276.885.9
HMMT 2026 Feb95.292.796.297.794.7
HLE (no tools)37.740.039.844.4
MRCR 1M83.592.9

V4-Flash (Max mode) giữ chất lượng gần Pro trên hầu hết task: MMLU-Pro 86.2 (Pro 87.5), LiveCodeBench 91.6 (Pro 93.5), SWE-bench Verified 79.0 (Pro 80.6). Gap chỉ rõ ở Terminal-Bench 2.0 (56.9 vs 67.9) và SimpleQA-Verified (34.1 vs 57.9) — multi-step tool use và factual recall.

So với V3.2 & competitor

Vs V3.2: +88 Elo trên Arena Code, KV cache 10%, FLOPs 27%. Đây là bước nhảy generation, không phải update nhỏ.

Vs GPT-5.4: V4-Pro thắng Codeforces (3206 vs 3168), LiveCodeBench, Chinese-SimpleQA. Thua HLE, HMMT, SimpleQA-Verified.

Vs Claude Opus 4.6: V4-Pro thắng LiveCodeBench (93.5 vs 88.8), Terminal-Bench 2.0 (67.9 vs 65.4). Opus vẫn giữ crown long-context retrieval tuyệt đối (MRCR 1M 92.9 vs 83.5) và HLE.

Vs Kimi K2.6 (đối thủ open-source gần nhất): K2.6 nhỉnh hơn 3 điểm trên SWE-Pro (58.6 vs 55.4) và ~73 Elo cao hơn trên Arena Code, nhưng V4-Pro thắng LiveCodeBench và Codeforces. Short-form code generation vs long-horizon codebase resolution — hai skill khác nhau.

Vs Gemini 3.1 Pro: Gemini giữ crown world knowledge (SimpleQA 75.6 vs 57.9, HLE 44.4 vs 37.7). Theo DeepSeek, V4 trails SOTA frontier khoảng 3–6 tháng development.

Use cases — ai nên dùng

  • Dev chạy agent coding volume cao: 50M token/tháng = $174 thay vì $1,250 trên Opus. Support Claude Code, OpenCode, OpenClaw.
  • Tiered routing production: Flash làm draft + task đơn giản, Pro cho complex repo reasoning. Gap benchmark chỉ 1–2 điểm ở nhiều task.
  • Long-context workloads: phân tích codebase, document RAG, legal review — context 1M giờ viable cho production.
  • Sản phẩm Chinese-first: V4-Pro là open-weight đầu tiên parity với Gemini trên Chinese-SimpleQA (84.4).
  • Competitive programming & terminal agent: V4-Pro đánh bại closed frontier trên Codeforces và Terminal-Bench.
  • Self-host compliance: MIT license + FP4/FP8 weights. Flash 160GB chạy được trên MacBook Pro M5 128GB quantized.

Limitations & pricing

Giá API chính thức:

ModelInput (miss)Input (hit)Output
deepseek-v4-pro$1.74 / M$0.145 / M$3.48 / M
deepseek-v4-flash$0.14 / M$0.028 / M$0.28 / M

So sánh: Claude Opus 4.6 $5/$25 per M, GPT-5.4 $2.50/$15. V4-Pro output rẻ hơn Opus ~7×, Flash rẻ hơn ~89×.

Hạn chế cần biết trước khi production:

  • Preview label — DeepSeek nói sẽ còn post-training refinement.
  • SimpleQA-Verified 57.9% — factual recall yếu hơn Gemini (75.6%) đáng kể.
  • HLE 37.7% — trails toàn bộ top closed model trên cross-domain reasoning.
  • MRCR 1M 83.5 vs Opus 92.9 — long-context retrieval chất lượng thuần kém Claude.
  • Không có Jinja chat template — phải dùng Python encoding script trong repo (`encoding_dsv4.py`).
  • API server đặt ở Trung Quốc — concern về data sovereignty cho regulated industry. Mitigation: self-host open weights.
  • Chưa có trên AWS Bedrock hay Azure OpenAI.

What's next

Endpoint legacy deepseek-chatdeepseek-reasoner sẽ deprecate ngày 24/07/2026 — hiện tạm route sang v4-flash. DeepSeek cam kết post-training refinement để ra stable non-preview. Chưa có teaser V5 hay R-series mới trong các nguồn công khai.

Takeaway thực dụng: nếu bạn đang chạy agent coding production trên Claude hoặc GPT với volume > 10M token/tháng, V4-Pro xứng đáng benchmark trên task của bạn tuần này. Flash thậm chí đáng thử cho use case commodity. Nhưng với workload factual-heavy, regulated data, hoặc cần reliability đã battle-test nhiều năm — price gap một mình không đủ close the deal.

Nguồn: Arena, HuggingFace DeepSeek-V4-Pro, DeepSeek-V4-Flash, Simon Willison, CNBC.