- DeepSeek V4-Pro đạt 93.5% LiveCodeBench và 3,206 Codeforces — vượt GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro; tie SWE-bench Verified.
- 1M context, MIT license, giờ có mặt trên Venice với truy cập ẩn danh.
TL;DR
DeepSeek V4-Pro và V4-Flash vừa ra mắt ngày 23–24/04/2026 và đã có mặt trên Venice — platform AI ẩn danh (không yêu cầu tài khoản, chấp nhận crypto, không lưu lịch sử chat). V4-Pro (1.6T params, 49B active) đạt 93.5% LiveCodeBench, Codeforces rating 3,206, và 80.6% SWE-bench Verified — dẫn đầu hoặc ngang ngửa GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro trên phần lớn benchmark coding. Giá output $3.48 / 1M token — rẻ hơn Claude Opus 4.6 ($25) khoảng 7 lần. Cả hai model đều hỗ trợ 1M context window mặc định, MIT license, open weights trên Hugging Face.
What's new
DeepSeek công bố hai phiên bản V4 cùng lúc, cả hai đều là Mixture-of-Experts:
- V4-Pro — 1.6 nghìn tỉ tham số tổng, 49B active mỗi token, 61 layer, 384 routed experts, train trên 33T token.
- V4-Flash — 284B tham số tổng, 13B active, 43 layer, 256 experts, train trên 32T token.
Cả hai cùng context 1M token mặc định (không tính phí long-context riêng), max output 384K, ba chế độ reasoning (Non-think / Think High / Think Max), JSON output, tool calls, chat prefix completion. V4-Pro thêm FIM completion cho code editing. Weights phát hành FP4+FP8 mixed precision trên Hugging Face dưới MIT license.
Cùng thời điểm, Venice — platform AI privacy-first do Erik Voorhees sáng lập — đã add cả hai model vào hệ sinh thái. Venice không lưu chat, không yêu cầu xác thực danh tính, và chấp nhận thanh toán bằng crypto — đó là ý nghĩa của "available anonymously" trong announcement.
Why it matters
Đây là lần đầu tiên một model open-source chạm mức frontier closed-source trên Codeforces competitive programming — rating 3,206 của V4-Pro xếp hạng 23 trên bảng human competitors toàn cầu, vượt GPT-5.4 (3,168) và Gemini 3.1 Pro (3,052). Kết hợp với MIT license và integration sẵn cho Claude Code, OpenClaw, OpenCode, CodeBuddy — developer có thể swap base URL để chạy coding agent với cost ~1/7 so với Claude, không mất chất lượng đo được trên benchmark.
Với deployment qua Venice, thêm một tầng nữa: truy cập không cần tài khoản, không log, phù hợp cho các use case nhạy cảm về privacy mà trước đây buộc phải self-host.
Technical facts
Ba thay đổi kiến trúc cốt lõi:
- Hybrid attention CSA + HCA — Compressed Sparse Attention (nén KV cache theo sequence, compression rate 4, top-k indexer chọn 1,024 KV entries cho V4-Pro) xen kẽ với Heavily Compressed Attention (compression rate 128, dense attention trên biểu diễn nén). Cho phép model vừa có lookup sparse chính xác, vừa có global view rẻ.
- Manifold-Constrained Hyper-Connections (mHC) — fix training divergence ở scale 1.6T param. Signal amplification giảm từ 3,000× xuống 1.6× nhờ Sinkhorn-Knopp constraint trên Birkhoff Polytope.
- Muon optimizer thay AdamW cho phần lớn tham số — convergence nhanh hơn, ổn định hơn ở trillion-parameter scale.
Kết quả về efficiency tại context 1M so với DeepSeek V3.2:
| Model | FLOPs vs V3.2 | KV Cache vs V3.2 |
|---|---|---|
| V4-Pro | 27% (3.7× thấp hơn) | 10% (9.5× nhỏ hơn) |
| V4-Flash | 10% (9.8× thấp hơn) | 7% (13.7× nhỏ hơn) |
KV cache 10× nhỏ hơn nghĩa là một GPU có thể serve gấp 10 lần session long-context đồng thời — đủ để 1M context trở thành tier mặc định thay vì premium add-on.
Comparison
Bảng head-to-head V4-Pro vs ba model closed-source hàng đầu:
| Benchmark | V4-Pro | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | — | 88.8 | 91.7 |
| Codeforces (rating) | 3,206 | 3,168 | — | 3,052 |
| SWE-bench Verified | 80.6 | — | 80.8 | 80.6 |
| Terminal Bench 2.0 | 67.9 | 75.1 | 65.4 | 68.5 |
| Apex Shortlist | 90.2 | 78.1 | 85.9 | 89.1 |
| Toolathlon | 51.8 | 54.6 | 47.2 | 48.8 |
| MMLU-Pro | 87.5 | 87.5 | 89.1 | 91.0 |
| HLE (no tools) | 37.7 | 39.8 | 40.0 | 44.4 |
| SimpleQA-Verified | 57.9 | 45.3 | 46.2 | 75.6 |
| MRCR 1M | 83.5 | — | 92.9 | 76.3 |
V4-Pro thắng rõ trên LiveCodeBench, Codeforces, Apex Shortlist, Toolathlon. Tie SWE-bench Verified. Trails Gemini 3.1 Pro trên knowledge-heavy (MMLU-Pro, HLE, SimpleQA, GPQA), và Claude Opus 4.6 trên long-context retrieval 1M (92.9 vs 83.5). GPT-5.4 dẫn Terminal Bench 2.0.
Use cases
- Agentic coding stack — pre-tuned adapters cho Claude Code, OpenClaw, OpenCode, CodeBuddy. Developer chỉ swap base URL để chạy V4-Pro như Claude replacement.
- Competitive programming & multi-file refactor — Think Max mode. Chính DeepSeek dùng V4-Pro nội bộ cho agentic coding, mô tả là "tốt hơn Sonnet 4.5, gần Opus 4.6 non-thinking."
- High-volume production — V4-Flash với output $0.28/1M token phù hợp cho chat, Q&A, summarization, code completion, bug fix, document analysis dưới 500K token.
- Self-hosting — V4-Flash (~158GB) fit trên 1× NVIDIA H200 hoặc 2× A100 80GB. V4-Pro (~862GB) cần cluster 8× H100 80GB.
- Private/anonymous access qua Venice — không lưu chat, crypto payment, không cần verify danh tính. Phù hợp use case nhạy cảm privacy.
Limitations & pricing
Pricing chính thức DeepSeek API:
| Per 1M tokens | V4-Flash | V4-Pro | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|---|
| Input (cache miss) | $0.14 | $1.74 | $5.00 | $2.50 |
| Output | $0.28 | $3.48 | $25.00 | $15.00 |
| Input (cache hit) | $0.028 | $0.145 | — | — |
Giảm thêm 50% off-peak (23:00–07:00 giờ Bắc Kinh). V4-Pro rẻ hơn Claude Opus 4.6 ~7× output; V4-Flash rẻ hơn ~89×.
Hạn chế cần lưu ý:
- Text-only — chưa hỗ trợ image/audio/video (multimodal đang trên roadmap).
- Knowledge recall kém Gemini 3.1 Pro trên HLE, GPQA, MMLU-Pro, SimpleQA.
- Long-context retrieval giảm chất lượng trên 128K, xuống 66% MRCR tại 1M token.
- Release không kèm Jinja chat template — phải dùng Python encoding scripts của DeepSeek.
- DeepSeek tự nhận kiến trúc "tương đối phức tạp", một số kỹ thuật training stability "chưa được hiểu đầy đủ".
What's next
Legacy endpoint deepseek-chat và deepseek-reasoner (đang chạy V3/V3.2) sẽ retire sau 24/07/2026, 15:59 UTC. Developer phải migrate sang model ID deepseek-v4-pro / deepseek-v4-flash trước hạn này. DeepSeek cũng confirm đang làm multimodal (image/video generation) và kế hoạch đơn giản hóa kiến trúc trong các version sau, tận dụng thêm FP4 math khi hardware hỗ trợ.
Nguồn: AskVenice trên X, DeepSeek-V4-Pro HF, BuildFastWithAI review, Fello AI breakdown, Venice.ai.

