TL;DR

Ngày 24/04/2026, DeepSeek công bố V4 Preview — 4 model MoE open-weight theo giấy phép MIT, tất cả đều hỗ trợ 1M token context natively. V4-Pro (1.6T/49B active) là model open-weight lớn nhất từng có, đạt 3206 Codeforces (hơn GPT-5.4), 93.5 LiveCodeBench, và 95.2 HMMT 2026 ở Think Max. Giá API chỉ $1.74 input / $3.48 output per 1M — bằng khoảng 12% Claude Opus 4.6 hay 23% GPT-5.4 cho output.

What's new

Bốn checkpoint được mở source cùng lúc trên Hugging Face và ModelScope:

  • DeepSeek-V4-Pro — 1.6T total, 49B active, 1M context — flagship frontier
  • DeepSeek-V4-Flash — 284B total, 13B active, 1M context — speed-optimized
  • V4-Pro-Base — foundation 1.6T chưa post-train, dành cho research & custom post-training
  • V4-Flash-Base — foundation 284B cho domain adaptation hiệu quả

Mỗi model có ba reasoning modeNon-Think (tác vụ nhanh), Think High (planning phức tạp), Think Max (coding/toán hard) — cho phép dial reasoning effort theo budget. Kiến trúc attention mới kết hợp token-wise compression với DSA (DeepSeek Sparse Attention).

Why it matters

Đây là lần đầu một model open-weight MIT đạt mức Codeforces vượt GPT-5.4 xHigh. Với 1M context native và giá tụt xuống khung Flash $0.14/$0.28 per M, ranh giới "frontier" vs "open" đang bị xóa nhanh hơn nhiều bên dự đoán. Các team trước đây phải chọn giữa "dùng API đắt của closed-source" hoặc "tự host model open yếu hơn hẳn" nay có lựa chọn thứ ba: host V4-Pro hoặc gọi API DeepSeek với chi phí thấp hơn một bậc. Với giấy phép MIT trên cả checkpoint Base, các startup và research lab có thể post-train frontier-scale model mà không cần xin phép hay trả royalty — điều mà Llama, Qwen hay Gemma đều chưa cho phép hoàn toàn. Đây là khoảnh khắc "Linux moment" tiếp theo của LLM, nếu các lab khác follow suit.

Technical facts

V4-Pro ở chế độ Think Max cho kết quả sát top closed-source:

BenchmarkV4-ProGPT-5.4Claude Opus 4.6Gemini 3.1 Pro
Codeforces rating320631683052
HMMT 2026 Feb Pass@195.297.796.2
LiveCodeBench93.5
IMOAnswerBench89.891.475.381.0
SWE-Verified80.680.880.6
MMLU-Pro87.5

V4-Flash (13B active) ấn tượng không kém với MMLU-Pro 86.2, LiveCodeBench 91.6, SWE-Pro 52.6 — gần sát Pro nhưng nhẹ hơn nhiều lần.

Hiệu quả tính toán vs V3.2

Ở 1M context, cải thiện so với V3.2:

  • V4-Pro: chỉ 27% FLOPs/token10% KV cache
  • V4-Flash: chỉ 10% FLOPs/token7% KV cache

Retrieval MRCR giữ 94% ở 128K, 82% ở 512K, và 66% ở full 1M — 1M dùng được thực tế, tuy giảm dần.

Comparison — giá cả là đòn knockout

ModelInput $/MOutput $/M
DeepSeek V4-Flash$0.14$0.28
DeepSeek V4-Pro$1.74$3.48
GPT-5.4$2.50$15.00
Claude Sonnet 4.6$3.00$15.00

V4-Flash là model nhỏ rẻ nhất hiện tại; V4-Pro là frontier-class rẻ nhất. Cùng một output tier, DeepSeek V4-Pro chỉ bằng ~23% giá GPT-5.4 và 23% giá Claude Sonnet 4.6.

Use cases

  • Agentic coding — điểm LiveCodeBench + SWE-Verified top-tier, tích hợp sẵn với Claude Code, OpenCode, OpenClaw
  • Long-context analysis — đọc cả codebase, multi-document synthesis, legal review — 1M context native, retrieval dùng được tới 512K
  • Competitive math & algorithms — Codeforces 3206 vượt GPT-5.4, HMMT 95.2
  • Research frontier-scale — Base checkpoint MIT cho phép post-train custom ở quy mô 1.6T
  • Domain adaptation — Flash-Base 284B hợp fine-tune cho vertical hẹp với compute vừa phải
  • Cost-sensitive production — Flash $0.14 input đủ rẻ cho pipeline volume lớn

Limitations & pricing

Vẫn là Preview, chưa GA. V4-Pro nặng 865GB, muốn self-host cần cluster nhiều GPU. Benchmark cho thấy Pro vẫn thua GPT-5.4 khoảng 2–3 điểm ở HMMT và IMOAnswerBench — Simon Willison ước tính V4 trailing SOTA closed-source khoảng 3–6 tháng. MRCR drop còn 66% ở 1M token — không phải "1M context perfect". API pricing đã nêu ở trên; license MIT nên cả 4 checkpoint (gồm Base) dùng thương mại tự do.

What's next

Legacy endpoint deepseek-chatdeepseek-reasoner sẽ retire vào 24/07/2026 — team dùng API DeepSeek nên bắt đầu migrate. Sau preview này, nhiều khả năng có full release V4 với thêm Lite variant và distilled checkpoint cho edge/on-device. Trong ngắn hạn, câu hỏi lớn là các closed-source lab phản ứng thế nào khi một model MIT 1.6T đã bắt kịp họ về Codeforces và chỉ lấy ~12–23% giá.

Nguồn: DeepSeek API Docs, Simon Willison, Hugging Face, ModelScope.