- DeepSeek vừa thả bản preview V4 ngày 24/4/2026: hai MoE 1M-context (Pro 1.6T/49B và Flash 284B/13B), trọng số mở MIT, API tương thích OpenAI và Anthropic.
- Codeforces 3206, LiveCodeBench 93.5, giá output Pro chỉ $3.48/M — rẻ hơn GPT-5.5 khoảng 8.6×.
TL;DR
Ngày 24/4/2026, DeepSeek công bố V4 Preview — hai mô hình Mixture-of-Experts mở trọng số theo license MIT: V4-Pro (1.6T tổng / 49B activated) và V4-Flash (284B / 13B). Cả hai hỗ trợ 1M token context tiêu chuẩn, chế độ thinking/non-thinking ba mức nỗ lực, API tương thích cả OpenAI ChatCompletions lẫn Anthropic. V4-Pro-Max leo lên Codeforces 3206, LiveCodeBench 93.5, SWE-Verified 80.6 — vị thế open-source SOTA cho coding/agent. Giá output Pro $3.48/M token, rẻ hơn GPT-5.5 tầm 8.6×, còn Flash chỉ $0.28/M. Thông điệp lớn hơn "ra model mới": mã nguồn mở không còn là lựa chọn giá rẻ, mà đang cạnh tranh song song trên context, coding, agent workflow và chi phí.
Cái gì mới?
Bản preview gồm hai biến thể MoE tách biệt (Flash không phải bản rút gọn của Pro — chúng được train riêng):
- DeepSeek-V4-Pro: 1.6T tổng tham số, 49B kích hoạt, 865GB trên Hugging Face. Theo Simon Willison, đây là mô hình open-weights lớn nhất hiện nay, vượt Kimi K2.6 (1.1T) và GLM-5.1 (754B), gấp đôi V3.2 (685B).
- DeepSeek-V4-Flash: 284B tổng, 13B active, 160GB — đủ nhỏ để chạy local (quantized) trên MacBook Pro M5 128GB.
- Cả hai: 1M context tiêu chuẩn, max output 384K, hỗ trợ ba mức nỗ lực reasoning (Non-think, Think High, Think Max).
- API live cùng ngày: giữ nguyên
base_url, chỉ đổi model ID. Protocol hỗ trợ cả OpenAI ChatCompletions lẫn Anthropic (plug thẳng vào Claude Code, OpenClaw, OpenCode). - Trọng số mở theo license MIT trên Hugging Face (một số blog trích sai thành Apache 2.0).
Thời điểm release trùng khớp với OpenAI ra GPT-5.5 — DeepSeek chủ đích chia sẻ chu kỳ tin tức để không bị lu mờ.
Vì sao chuyện này đáng chú ý?
Một năm sau "khoảnh khắc Sputnik" của R1, điểm quan trọng nhất của V4 không phải điểm benchmark — mà là chi phí mỗi token. Đầu ra V4-Pro $3.48 cho một triệu token, so với GPT-5.5 $30 (rẻ hơn 8.6×) và Claude Opus 4.7 (rẻ hơn ~21×). Flash ở mức $0.28 output thì gần như "free" theo chuẩn frontier.
Dịch sang ngôn ngữ production: bạn có thể chạy một mô hình 1M context, hạng Codeforces 3200 trong sản phẩm thật với ngân sách từng chỉ đủ cho một chat endpoint tầm trung. Hào không còn là "model thông minh nhất" — mà đang dịch sang intelligence per dollar, per token, per workflow.
Bên dưới có gì?
V4 là bài trình diễn hiệu quả (efficiency) chứ không phải thêm tham số:
- Hybrid attention: kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA).
- Manifold-Constrained Hyper-Connections (mHC) gia cố residual connection để signal propagation ổn định qua nhiều layer.
- Muon optimizer cho tốc độ hội tụ và ổn định huấn luyện tốt hơn.
- Pre-train trên hơn 32T tokens, precision hỗn hợp FP4 (MoE experts) + FP8 (các tham số khác).
- Post-train 2 giai đoạn: cultivate domain experts qua SFT + RL (GRPO), rồi on-policy distillation gộp vào một model thống nhất.
Tác động đo được ở context 1M so với V3.2:
| Metric | V4-Pro | V4-Flash |
|---|---|---|
| Single-token inference FLOPs | 27% | 10% |
| KV cache size | 10% | 7% |
Chính KV cache giảm xuống còn 10% là cú hạ rào cản lớn nhất: phục vụ context 1M từng là bài toán chi phí khổng lồ với model mở, V4 cắt đi một bậc độ lớn.
So với GPT-5.4, Gemini-3.1-Pro, Opus-4.6, K2.6
Benchmark của V4-Pro-Max ở các đánh giá chính (theo technical report của DeepSeek):
| Benchmark | Opus-4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro | K2.6 Thinking | V4-Pro Max |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 89.1 | 87.5 | 91.0 | 87.1 | 87.5 |
| Chinese-SimpleQA | 76.4 | 76.8 | 85.9 | 75.9 | 84.4 |
| GPQA Diamond | 91.3 | 93.0 | 94.3 | 90.5 | 90.1 |
| LiveCodeBench (Pass@1) | 88.8 | — | 91.7 | 89.6 | 93.5 |
| Codeforces (rating) | — | 3168 | 3052 | — | 3206 |
| SWE-Verified | 80.8 | — | 80.6 | 80.2 | 80.6 |
| SWE-Pro | 57.3 | 57.7 | 54.2 | 58.6 | 55.4 |
| Terminal-Bench 2.0 | 65.4 | 75.1 | 68.5 | 66.7 | 67.9 |
| MRCR 1M (long-context) | 92.9 | — | 76.3 | — | 83.5 |
| GDPval-AA (Elo) | 1619 | 1674 | 1314 | 1482 | 1554 |
Đọc trung thực: V4-Pro thắng rõ ràng ở short-form coding và competitive programming (LiveCodeBench, Codeforces — thậm chí hơn GPT-5.4 xHigh). Ở math/STEM (HMMT, IMOAnswerBench) cạnh tranh với top. Nhưng vẫn thua khung đóng ở:
- Long-context retrieval tuyệt đối (Opus 4.6 còn giữ vương miện MRCR/CorpusQA).
- Terminal agent workflows (GPT-5.4 tầm 75.1 — một lớp riêng).
- Tri thức kinh tế (GDPval-AA, HLE không tool).
- Long-horizon "fix GitHub issue" (SWE-Pro — K2.6 Thinking hơn ~3 điểm).
DeepSeek tự thú nhận trong paper: "trails state-of-the-art frontier models by approximately 3 to 6 months." Không phải crush mọi thứ — là bám sát với chi phí thấp hơn một đến hai bậc.
Ai hưởng lợi rõ nhất?
- Coding agents: Drop-in cho Claude Code vì có Anthropic API; DeepSeek nói chính họ đã dùng V4 cho agentic coding nội bộ. Native integration với OpenClaw, OpenCode.
- Sản phẩm Chinese-first: Chinese-SimpleQA 84.4 — lần đầu có một open-weight model ngang hàng với closed frontier (chỉ Gemini 3.1 Pro nhỉnh hơn ở 85.9).
- Workload cost-sensitive: nếu Flash đủ tốt cho task của bạn, giá output $0.28/M biến use-case vốn không khả thi về kinh tế thành khả thi.
- Self-hosted stack: trọng số MIT trên HF; Flash 160GB chạy được trên M5 MacBook Pro 128GB với quantization nhẹ, theo Simon Willison.
- 1M-context mà không đốt tiền: benchmark retrieval chưa vượt Opus, nhưng chi phí serving rẻ hơn bậc độ lớn — đánh đổi hợp lý cho phần lớn use-case.
Giới hạn & pricing
Đừng kỳ vọng V4 "giải quyết" mọi thứ. Những nơi frontier đóng vẫn dẫn: long-context retrieval tuyệt đối (Opus), terminal agent (GPT-5.5 Terminal-Bench 82.7% vẫn một tier riêng), GDPval knowledge-work. Nếu stack của bạn phụ thuộc mấy điểm này, chưa phải lúc chuyển hẳn.
Bảng giá (per million tokens):
| Model | Input (miss) | Input (hit) | Output |
|---|---|---|---|
| deepseek-v4-flash | $0.14 | $0.028 | $0.28 |
| deepseek-v4-pro | $1.74 | $0.145 | $3.48 |
Sẵn sàng ngay: chat.deepseek.com (Expert/Instant Mode), API deepseek-v4-pro / deepseek-v4-flash, trọng số trên Hugging Face (MIT). Các endpoint cũ deepseek-chat và deepseek-reasoner sẽ dừng hoạt động sau 24/7/2026, 15:59 UTC — hiện đang route tới v4-flash.
Tiếp theo
Đây là preview. Bản V4 chính thức chưa có ngày cụ thể trong công bố. Nhưng khung cảnh đã rõ: mã nguồn mở đang đẩy cùng lúc trên context dài, coding agent, tương thích API và cấu trúc chi phí. Flash có thể là sleeper ở đây — nếu gần đủ tốt cho task thực trong khi rẻ và nhanh hơn nhiều, đó mới là nơi adoption cộng dồn.
Câu hỏi không còn là "model nào thông minh nhất" mà là: với workload cụ thể của bạn, intelligence per dollar per token ở đâu tốt nhất? Với nhiều team trả lời hôm nay có thể sẽ là deepseek-v4-flash.
Nguồn: DeepSeek API Docs, Hugging Face model card, Simon Willison, CNBC, TechNode, Ofox AI.

