DeepSeek V4 Preview: 1.6T MoE, 1M Context, MIT — Frontier Đã Open-Source

TL;DR

Ngày 24/04/2026, DeepSeek công bố V4 Preview — 4 model MoE open-weight theo giấy phép MIT, tất cả đều hỗ trợ 1M token context natively. V4-Pro (1.6T/49B active) là model open-weight lớn nhất từng có, đạt 3206 Codeforces (hơn GPT-5.4), 93.5 LiveCodeBench, và 95.2 HMMT 2026 ở Think Max. Giá API chỉ $1.74 input / $3.48 output per 1M — bằng khoảng 12% Claude Opus 4.6 hay 23% GPT-5.4 cho output.

What's new

Bốn checkpoint được mở source cùng lúc trên Hugging Face và ModelScope:

DeepSeek-V4-Pro — 1.6T total, 49B active, 1M context — flagship frontier
DeepSeek-V4-Flash — 284B total, 13B active, 1M context — speed-optimized
V4-Pro-Base — foundation 1.6T chưa post-train, dành cho research & custom post-training
V4-Flash-Base — foundation 284B cho domain adaptation hiệu quả

Mỗi model có ba reasoning mode — Non-Think (tác vụ nhanh), Think High (planning phức tạp), Think Max (coding/toán hard) — cho phép dial reasoning effort theo budget. Kiến trúc attention mới kết hợp token-wise compression với DSA (DeepSeek Sparse Attention).

Why it matters

Đây là lần đầu một model open-weight MIT đạt mức Codeforces vượt GPT-5.4 xHigh. Với 1M context native và giá tụt xuống khung Flash $0.14/$0.28 per M, ranh giới "frontier" vs "open" đang bị xóa nhanh hơn nhiều bên dự đoán. Các team trước đây phải chọn giữa "dùng API đắt của closed-source" hoặc "tự host model open yếu hơn hẳn" nay có lựa chọn thứ ba: host V4-Pro hoặc gọi API DeepSeek với chi phí thấp hơn một bậc. Với giấy phép MIT trên cả checkpoint Base, các startup và research lab có thể post-train frontier-scale model mà không cần xin phép hay trả royalty — điều mà Llama, Qwen hay Gemma đều chưa cho phép hoàn toàn. Đây là khoảnh khắc "Linux moment" tiếp theo của LLM, nếu các lab khác follow suit.

Technical facts

V4-Pro ở chế độ Think Max cho kết quả sát top closed-source:

Benchmark	V4-Pro	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
Codeforces rating	3206	3168	—	3052
HMMT 2026 Feb Pass@1	95.2	97.7	96.2	—
LiveCodeBench	93.5	—	—	—
IMOAnswerBench	89.8	91.4	75.3	81.0
SWE-Verified	80.6	—	80.8	80.6
MMLU-Pro	87.5	—	—	—

V4-Flash (13B active) ấn tượng không kém với MMLU-Pro 86.2, LiveCodeBench 91.6, SWE-Pro 52.6 — gần sát Pro nhưng nhẹ hơn nhiều lần.

Hiệu quả tính toán vs V3.2

Ở 1M context, cải thiện so với V3.2:

V4-Pro: chỉ 27% FLOPs/token và 10% KV cache
V4-Flash: chỉ 10% FLOPs/token và 7% KV cache

Retrieval MRCR giữ 94% ở 128K, 82% ở 512K, và 66% ở full 1M — 1M dùng được thực tế, tuy giảm dần.

Comparison — giá cả là đòn knockout

Model	Input $/M	Output $/M
DeepSeek V4-Flash	$0.14	$0.28
DeepSeek V4-Pro	$1.74	$3.48
GPT-5.4	$2.50	$15.00
Claude Sonnet 4.6	$3.00	$15.00

V4-Flash là model nhỏ rẻ nhất hiện tại; V4-Pro là frontier-class rẻ nhất. Cùng một output tier, DeepSeek V4-Pro chỉ bằng ~23% giá GPT-5.4 và 23% giá Claude Sonnet 4.6.

Use cases

Agentic coding — điểm LiveCodeBench + SWE-Verified top-tier, tích hợp sẵn với Claude Code, OpenCode, OpenClaw
Long-context analysis — đọc cả codebase, multi-document synthesis, legal review — 1M context native, retrieval dùng được tới 512K
Competitive math & algorithms — Codeforces 3206 vượt GPT-5.4, HMMT 95.2
Research frontier-scale — Base checkpoint MIT cho phép post-train custom ở quy mô 1.6T
Domain adaptation — Flash-Base 284B hợp fine-tune cho vertical hẹp với compute vừa phải
Cost-sensitive production — Flash $0.14 input đủ rẻ cho pipeline volume lớn

Limitations & pricing

Vẫn là Preview, chưa GA. V4-Pro nặng 865GB, muốn self-host cần cluster nhiều GPU. Benchmark cho thấy Pro vẫn thua GPT-5.4 khoảng 2–3 điểm ở HMMT và IMOAnswerBench — Simon Willison ước tính V4 trailing SOTA closed-source khoảng 3–6 tháng. MRCR drop còn 66% ở 1M token — không phải "1M context perfect". API pricing đã nêu ở trên; license MIT nên cả 4 checkpoint (gồm Base) dùng thương mại tự do.

What's next

Legacy endpoint deepseek-chat và deepseek-reasoner sẽ retire vào 24/07/2026 — team dùng API DeepSeek nên bắt đầu migrate. Sau preview này, nhiều khả năng có full release V4 với thêm Lite variant và distilled checkpoint cho edge/on-device. Trong ngắn hạn, câu hỏi lớn là các closed-source lab phản ứng thế nào khi một model MIT 1.6T đã bắt kịp họ về Codeforces và chỉ lấy ~12–23% giá.

Nguồn: DeepSeek API Docs, Simon Willison, Hugging Face, ModelScope.

DeepSeek V4 Preview: 1.6T MoE, 1M Context, MIT — Frontier Đã Open-Source

TL;DR

What's new

Why it matters

Technical facts

Hiệu quả tính toán vs V3.2

Comparison — giá cả là đòn knockout

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding