DeepSeek V4 Pro & V4 Flash lên Venice: model code open-source vượt Claude Opus 4.6 và GPT-5.4, rẻ hơn 7 lần

TL;DR

DeepSeek V4-Pro và V4-Flash vừa ra mắt ngày 23–24/04/2026 và đã có mặt trên Venice — platform AI ẩn danh (không yêu cầu tài khoản, chấp nhận crypto, không lưu lịch sử chat). V4-Pro (1.6T params, 49B active) đạt 93.5% LiveCodeBench, Codeforces rating 3,206, và 80.6% SWE-bench Verified — dẫn đầu hoặc ngang ngửa GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro trên phần lớn benchmark coding. Giá output $3.48 / 1M token — rẻ hơn Claude Opus 4.6 ($25) khoảng 7 lần. Cả hai model đều hỗ trợ 1M context window mặc định, MIT license, open weights trên Hugging Face.

What's new

DeepSeek công bố hai phiên bản V4 cùng lúc, cả hai đều là Mixture-of-Experts:

V4-Pro — 1.6 nghìn tỉ tham số tổng, 49B active mỗi token, 61 layer, 384 routed experts, train trên 33T token.
V4-Flash — 284B tham số tổng, 13B active, 43 layer, 256 experts, train trên 32T token.

Cả hai cùng context 1M token mặc định (không tính phí long-context riêng), max output 384K, ba chế độ reasoning (Non-think / Think High / Think Max), JSON output, tool calls, chat prefix completion. V4-Pro thêm FIM completion cho code editing. Weights phát hành FP4+FP8 mixed precision trên Hugging Face dưới MIT license.

Cùng thời điểm, Venice — platform AI privacy-first do Erik Voorhees sáng lập — đã add cả hai model vào hệ sinh thái. Venice không lưu chat, không yêu cầu xác thực danh tính, và chấp nhận thanh toán bằng crypto — đó là ý nghĩa của "available anonymously" trong announcement.

Why it matters

Đây là lần đầu tiên một model open-source chạm mức frontier closed-source trên Codeforces competitive programming — rating 3,206 của V4-Pro xếp hạng 23 trên bảng human competitors toàn cầu, vượt GPT-5.4 (3,168) và Gemini 3.1 Pro (3,052). Kết hợp với MIT license và integration sẵn cho Claude Code, OpenClaw, OpenCode, CodeBuddy — developer có thể swap base URL để chạy coding agent với cost ~1/7 so với Claude, không mất chất lượng đo được trên benchmark.

Với deployment qua Venice, thêm một tầng nữa: truy cập không cần tài khoản, không log, phù hợp cho các use case nhạy cảm về privacy mà trước đây buộc phải self-host.

Technical facts

Ba thay đổi kiến trúc cốt lõi:

Hybrid attention CSA + HCA — Compressed Sparse Attention (nén KV cache theo sequence, compression rate 4, top-k indexer chọn 1,024 KV entries cho V4-Pro) xen kẽ với Heavily Compressed Attention (compression rate 128, dense attention trên biểu diễn nén). Cho phép model vừa có lookup sparse chính xác, vừa có global view rẻ.
Manifold-Constrained Hyper-Connections (mHC) — fix training divergence ở scale 1.6T param. Signal amplification giảm từ 3,000× xuống 1.6× nhờ Sinkhorn-Knopp constraint trên Birkhoff Polytope.
Muon optimizer thay AdamW cho phần lớn tham số — convergence nhanh hơn, ổn định hơn ở trillion-parameter scale.

Kết quả về efficiency tại context 1M so với DeepSeek V3.2:

Model	FLOPs vs V3.2	KV Cache vs V3.2
V4-Pro	27% (3.7× thấp hơn)	10% (9.5× nhỏ hơn)
V4-Flash	10% (9.8× thấp hơn)	7% (13.7× nhỏ hơn)

KV cache 10× nhỏ hơn nghĩa là một GPU có thể serve gấp 10 lần session long-context đồng thời — đủ để 1M context trở thành tier mặc định thay vì premium add-on.

Comparison

Bảng head-to-head V4-Pro vs ba model closed-source hàng đầu:

Benchmark	V4-Pro	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
LiveCodeBench	93.5	—	88.8	91.7
Codeforces (rating)	3,206	3,168	—	3,052
SWE-bench Verified	80.6	—	80.8	80.6
Terminal Bench 2.0	67.9	75.1	65.4	68.5
Apex Shortlist	90.2	78.1	85.9	89.1
Toolathlon	51.8	54.6	47.2	48.8
MMLU-Pro	87.5	87.5	89.1	91.0
HLE (no tools)	37.7	39.8	40.0	44.4
SimpleQA-Verified	57.9	45.3	46.2	75.6
MRCR 1M	83.5	—	92.9	76.3

V4-Pro thắng rõ trên LiveCodeBench, Codeforces, Apex Shortlist, Toolathlon. Tie SWE-bench Verified. Trails Gemini 3.1 Pro trên knowledge-heavy (MMLU-Pro, HLE, SimpleQA, GPQA), và Claude Opus 4.6 trên long-context retrieval 1M (92.9 vs 83.5). GPT-5.4 dẫn Terminal Bench 2.0.

Use cases

Agentic coding stack — pre-tuned adapters cho Claude Code, OpenClaw, OpenCode, CodeBuddy. Developer chỉ swap base URL để chạy V4-Pro như Claude replacement.
Competitive programming & multi-file refactor — Think Max mode. Chính DeepSeek dùng V4-Pro nội bộ cho agentic coding, mô tả là "tốt hơn Sonnet 4.5, gần Opus 4.6 non-thinking."
High-volume production — V4-Flash với output $0.28/1M token phù hợp cho chat, Q&A, summarization, code completion, bug fix, document analysis dưới 500K token.
Self-hosting — V4-Flash (~158GB) fit trên 1× NVIDIA H200 hoặc 2× A100 80GB. V4-Pro (~862GB) cần cluster 8× H100 80GB.
Private/anonymous access qua Venice — không lưu chat, crypto payment, không cần verify danh tính. Phù hợp use case nhạy cảm privacy.

Limitations & pricing

Pricing chính thức DeepSeek API:

Per 1M tokens	V4-Flash	V4-Pro	Claude Opus 4.6	GPT-5.4
Input (cache miss)	$0.14	$1.74	$5.00	$2.50
Output	$0.28	$3.48	$25.00	$15.00
Input (cache hit)	$0.028	$0.145	—	—

Giảm thêm 50% off-peak (23:00–07:00 giờ Bắc Kinh). V4-Pro rẻ hơn Claude Opus 4.6 ~7× output; V4-Flash rẻ hơn ~89×.

Hạn chế cần lưu ý:

Text-only — chưa hỗ trợ image/audio/video (multimodal đang trên roadmap).
Knowledge recall kém Gemini 3.1 Pro trên HLE, GPQA, MMLU-Pro, SimpleQA.
Long-context retrieval giảm chất lượng trên 128K, xuống 66% MRCR tại 1M token.
Release không kèm Jinja chat template — phải dùng Python encoding scripts của DeepSeek.
DeepSeek tự nhận kiến trúc "tương đối phức tạp", một số kỹ thuật training stability "chưa được hiểu đầy đủ".

What's next

Legacy endpoint deepseek-chat và deepseek-reasoner (đang chạy V3/V3.2) sẽ retire sau 24/07/2026, 15:59 UTC. Developer phải migrate sang model ID deepseek-v4-pro / deepseek-v4-flash trước hạn này. DeepSeek cũng confirm đang làm multimodal (image/video generation) và kế hoạch đơn giản hóa kiến trúc trong các version sau, tận dụng thêm FP4 math khi hardware hỗ trợ.

Nguồn: AskVenice trên X, DeepSeek-V4-Pro HF, BuildFastWithAI review, Fello AI breakdown, Venice.ai.

DeepSeek V4 Pro & V4 Flash lên Venice: model code open-source vượt Claude Opus 4.6 và GPT-5.4, rẻ hơn 7 lần

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding