TL;DR

DeepSeek V4-ProV4-Flash vừa ra mắt ngày 23–24/04/2026 và đã có mặt trên Venice — platform AI ẩn danh (không yêu cầu tài khoản, chấp nhận crypto, không lưu lịch sử chat). V4-Pro (1.6T params, 49B active) đạt 93.5% LiveCodeBench, Codeforces rating 3,206, và 80.6% SWE-bench Verified — dẫn đầu hoặc ngang ngửa GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro trên phần lớn benchmark coding. Giá output $3.48 / 1M token — rẻ hơn Claude Opus 4.6 ($25) khoảng 7 lần. Cả hai model đều hỗ trợ 1M context window mặc định, MIT license, open weights trên Hugging Face.

What's new

DeepSeek công bố hai phiên bản V4 cùng lúc, cả hai đều là Mixture-of-Experts:

  • V4-Pro — 1.6 nghìn tỉ tham số tổng, 49B active mỗi token, 61 layer, 384 routed experts, train trên 33T token.
  • V4-Flash — 284B tham số tổng, 13B active, 43 layer, 256 experts, train trên 32T token.

Cả hai cùng context 1M token mặc định (không tính phí long-context riêng), max output 384K, ba chế độ reasoning (Non-think / Think High / Think Max), JSON output, tool calls, chat prefix completion. V4-Pro thêm FIM completion cho code editing. Weights phát hành FP4+FP8 mixed precision trên Hugging Face dưới MIT license.

Cùng thời điểm, Venice — platform AI privacy-first do Erik Voorhees sáng lập — đã add cả hai model vào hệ sinh thái. Venice không lưu chat, không yêu cầu xác thực danh tính, và chấp nhận thanh toán bằng crypto — đó là ý nghĩa của "available anonymously" trong announcement.

Why it matters

Đây là lần đầu tiên một model open-source chạm mức frontier closed-source trên Codeforces competitive programming — rating 3,206 của V4-Pro xếp hạng 23 trên bảng human competitors toàn cầu, vượt GPT-5.4 (3,168) và Gemini 3.1 Pro (3,052). Kết hợp với MIT license và integration sẵn cho Claude Code, OpenClaw, OpenCode, CodeBuddy — developer có thể swap base URL để chạy coding agent với cost ~1/7 so với Claude, không mất chất lượng đo được trên benchmark.

Với deployment qua Venice, thêm một tầng nữa: truy cập không cần tài khoản, không log, phù hợp cho các use case nhạy cảm về privacy mà trước đây buộc phải self-host.

Technical facts

Ba thay đổi kiến trúc cốt lõi:

  • Hybrid attention CSA + HCA — Compressed Sparse Attention (nén KV cache theo sequence, compression rate 4, top-k indexer chọn 1,024 KV entries cho V4-Pro) xen kẽ với Heavily Compressed Attention (compression rate 128, dense attention trên biểu diễn nén). Cho phép model vừa có lookup sparse chính xác, vừa có global view rẻ.
  • Manifold-Constrained Hyper-Connections (mHC) — fix training divergence ở scale 1.6T param. Signal amplification giảm từ 3,000× xuống 1.6× nhờ Sinkhorn-Knopp constraint trên Birkhoff Polytope.
  • Muon optimizer thay AdamW cho phần lớn tham số — convergence nhanh hơn, ổn định hơn ở trillion-parameter scale.

Kết quả về efficiency tại context 1M so với DeepSeek V3.2:

ModelFLOPs vs V3.2KV Cache vs V3.2
V4-Pro27% (3.7× thấp hơn)10% (9.5× nhỏ hơn)
V4-Flash10% (9.8× thấp hơn)7% (13.7× nhỏ hơn)

KV cache 10× nhỏ hơn nghĩa là một GPU có thể serve gấp 10 lần session long-context đồng thời — đủ để 1M context trở thành tier mặc định thay vì premium add-on.

Comparison

Bảng head-to-head V4-Pro vs ba model closed-source hàng đầu:

BenchmarkV4-ProGPT-5.4Claude Opus 4.6Gemini 3.1 Pro
LiveCodeBench93.588.891.7
Codeforces (rating)3,2063,1683,052
SWE-bench Verified80.680.880.6
Terminal Bench 2.067.975.165.468.5
Apex Shortlist90.278.185.989.1
Toolathlon51.854.647.248.8
MMLU-Pro87.587.589.191.0
HLE (no tools)37.739.840.044.4
SimpleQA-Verified57.945.346.275.6
MRCR 1M83.592.976.3

V4-Pro thắng rõ trên LiveCodeBench, Codeforces, Apex Shortlist, Toolathlon. Tie SWE-bench Verified. Trails Gemini 3.1 Pro trên knowledge-heavy (MMLU-Pro, HLE, SimpleQA, GPQA), và Claude Opus 4.6 trên long-context retrieval 1M (92.9 vs 83.5). GPT-5.4 dẫn Terminal Bench 2.0.

Use cases

  • Agentic coding stack — pre-tuned adapters cho Claude Code, OpenClaw, OpenCode, CodeBuddy. Developer chỉ swap base URL để chạy V4-Pro như Claude replacement.
  • Competitive programming & multi-file refactor — Think Max mode. Chính DeepSeek dùng V4-Pro nội bộ cho agentic coding, mô tả là "tốt hơn Sonnet 4.5, gần Opus 4.6 non-thinking."
  • High-volume production — V4-Flash với output $0.28/1M token phù hợp cho chat, Q&A, summarization, code completion, bug fix, document analysis dưới 500K token.
  • Self-hosting — V4-Flash (~158GB) fit trên 1× NVIDIA H200 hoặc 2× A100 80GB. V4-Pro (~862GB) cần cluster 8× H100 80GB.
  • Private/anonymous access qua Venice — không lưu chat, crypto payment, không cần verify danh tính. Phù hợp use case nhạy cảm privacy.

Limitations & pricing

Pricing chính thức DeepSeek API:

Per 1M tokensV4-FlashV4-ProClaude Opus 4.6GPT-5.4
Input (cache miss)$0.14$1.74$5.00$2.50
Output$0.28$3.48$25.00$15.00
Input (cache hit)$0.028$0.145

Giảm thêm 50% off-peak (23:00–07:00 giờ Bắc Kinh). V4-Pro rẻ hơn Claude Opus 4.6 ~7× output; V4-Flash rẻ hơn ~89×.

Hạn chế cần lưu ý:

  • Text-only — chưa hỗ trợ image/audio/video (multimodal đang trên roadmap).
  • Knowledge recall kém Gemini 3.1 Pro trên HLE, GPQA, MMLU-Pro, SimpleQA.
  • Long-context retrieval giảm chất lượng trên 128K, xuống 66% MRCR tại 1M token.
  • Release không kèm Jinja chat template — phải dùng Python encoding scripts của DeepSeek.
  • DeepSeek tự nhận kiến trúc "tương đối phức tạp", một số kỹ thuật training stability "chưa được hiểu đầy đủ".

What's next

Legacy endpoint deepseek-chatdeepseek-reasoner (đang chạy V3/V3.2) sẽ retire sau 24/07/2026, 15:59 UTC. Developer phải migrate sang model ID deepseek-v4-pro / deepseek-v4-flash trước hạn này. DeepSeek cũng confirm đang làm multimodal (image/video generation) và kế hoạch đơn giản hóa kiến trúc trong các version sau, tận dụng thêm FP4 math khi hardware hỗ trợ.

Nguồn: AskVenice trên X, DeepSeek-V4-Pro HF, BuildFastWithAI review, Fello AI breakdown, Venice.ai.