DeepSeek V4 Preview: 1.6T open-source MoE, 1M context, và cuộc đua mới về chi phí mỗi token

TL;DR

Ngày 24/4/2026, DeepSeek công bố V4 Preview — hai mô hình Mixture-of-Experts mở trọng số theo license MIT: V4-Pro (1.6T tổng / 49B activated) và V4-Flash (284B / 13B). Cả hai hỗ trợ 1M token context tiêu chuẩn, chế độ thinking/non-thinking ba mức nỗ lực, API tương thích cả OpenAI ChatCompletions lẫn Anthropic. V4-Pro-Max leo lên Codeforces 3206, LiveCodeBench 93.5, SWE-Verified 80.6 — vị thế open-source SOTA cho coding/agent. Giá output Pro $3.48/M token, rẻ hơn GPT-5.5 tầm 8.6×, còn Flash chỉ $0.28/M. Thông điệp lớn hơn "ra model mới": mã nguồn mở không còn là lựa chọn giá rẻ, mà đang cạnh tranh song song trên context, coding, agent workflow và chi phí.

Cái gì mới?

Bản preview gồm hai biến thể MoE tách biệt (Flash không phải bản rút gọn của Pro — chúng được train riêng):

DeepSeek-V4-Pro: 1.6T tổng tham số, 49B kích hoạt, 865GB trên Hugging Face. Theo Simon Willison, đây là mô hình open-weights lớn nhất hiện nay, vượt Kimi K2.6 (1.1T) và GLM-5.1 (754B), gấp đôi V3.2 (685B).
DeepSeek-V4-Flash: 284B tổng, 13B active, 160GB — đủ nhỏ để chạy local (quantized) trên MacBook Pro M5 128GB.
Cả hai: 1M context tiêu chuẩn, max output 384K, hỗ trợ ba mức nỗ lực reasoning (Non-think, Think High, Think Max).
API live cùng ngày: giữ nguyên base_url, chỉ đổi model ID. Protocol hỗ trợ cả OpenAI ChatCompletions lẫn Anthropic (plug thẳng vào Claude Code, OpenClaw, OpenCode).
Trọng số mở theo license MIT trên Hugging Face (một số blog trích sai thành Apache 2.0).

Thời điểm release trùng khớp với OpenAI ra GPT-5.5 — DeepSeek chủ đích chia sẻ chu kỳ tin tức để không bị lu mờ.

Vì sao chuyện này đáng chú ý?

Một năm sau "khoảnh khắc Sputnik" của R1, điểm quan trọng nhất của V4 không phải điểm benchmark — mà là chi phí mỗi token. Đầu ra V4-Pro $3.48 cho một triệu token, so với GPT-5.5 $30 (rẻ hơn 8.6×) và Claude Opus 4.7 (rẻ hơn ~21×). Flash ở mức $0.28 output thì gần như "free" theo chuẩn frontier.

Dịch sang ngôn ngữ production: bạn có thể chạy một mô hình 1M context, hạng Codeforces 3200 trong sản phẩm thật với ngân sách từng chỉ đủ cho một chat endpoint tầm trung. Hào không còn là "model thông minh nhất" — mà đang dịch sang intelligence per dollar, per token, per workflow.

Bên dưới có gì?

V4 là bài trình diễn hiệu quả (efficiency) chứ không phải thêm tham số:

Hybrid attention: kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA).
Manifold-Constrained Hyper-Connections (mHC) gia cố residual connection để signal propagation ổn định qua nhiều layer.
Muon optimizer cho tốc độ hội tụ và ổn định huấn luyện tốt hơn.
Pre-train trên hơn 32T tokens, precision hỗn hợp FP4 (MoE experts) + FP8 (các tham số khác).
Post-train 2 giai đoạn: cultivate domain experts qua SFT + RL (GRPO), rồi on-policy distillation gộp vào một model thống nhất.

Tác động đo được ở context 1M so với V3.2:

Metric	V4-Pro	V4-Flash
Single-token inference FLOPs	27%	10%
KV cache size	10%	7%

Chính KV cache giảm xuống còn 10% là cú hạ rào cản lớn nhất: phục vụ context 1M từng là bài toán chi phí khổng lồ với model mở, V4 cắt đi một bậc độ lớn.

So với GPT-5.4, Gemini-3.1-Pro, Opus-4.6, K2.6

Benchmark của V4-Pro-Max ở các đánh giá chính (theo technical report của DeepSeek):

Benchmark	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro	K2.6 Thinking	V4-Pro Max
MMLU-Pro (EM)	89.1	87.5	91.0	87.1	87.5
Chinese-SimpleQA	76.4	76.8	85.9	75.9	84.4
GPQA Diamond	91.3	93.0	94.3	90.5	90.1
LiveCodeBench (Pass@1)	88.8	—	91.7	89.6	93.5
Codeforces (rating)	—	3168	3052	—	3206
SWE-Verified	80.8	—	80.6	80.2	80.6
SWE-Pro	57.3	57.7	54.2	58.6	55.4
Terminal-Bench 2.0	65.4	75.1	68.5	66.7	67.9
MRCR 1M (long-context)	92.9	—	76.3	—	83.5
GDPval-AA (Elo)	1619	1674	1314	1482	1554

Đọc trung thực: V4-Pro thắng rõ ràng ở short-form coding và competitive programming (LiveCodeBench, Codeforces — thậm chí hơn GPT-5.4 xHigh). Ở math/STEM (HMMT, IMOAnswerBench) cạnh tranh với top. Nhưng vẫn thua khung đóng ở:

Long-context retrieval tuyệt đối (Opus 4.6 còn giữ vương miện MRCR/CorpusQA).
Terminal agent workflows (GPT-5.4 tầm 75.1 — một lớp riêng).
Tri thức kinh tế (GDPval-AA, HLE không tool).
Long-horizon "fix GitHub issue" (SWE-Pro — K2.6 Thinking hơn ~3 điểm).

DeepSeek tự thú nhận trong paper: "trails state-of-the-art frontier models by approximately 3 to 6 months." Không phải crush mọi thứ — là bám sát với chi phí thấp hơn một đến hai bậc.

Ai hưởng lợi rõ nhất?

Coding agents: Drop-in cho Claude Code vì có Anthropic API; DeepSeek nói chính họ đã dùng V4 cho agentic coding nội bộ. Native integration với OpenClaw, OpenCode.
Sản phẩm Chinese-first: Chinese-SimpleQA 84.4 — lần đầu có một open-weight model ngang hàng với closed frontier (chỉ Gemini 3.1 Pro nhỉnh hơn ở 85.9).
Workload cost-sensitive: nếu Flash đủ tốt cho task của bạn, giá output $0.28/M biến use-case vốn không khả thi về kinh tế thành khả thi.
Self-hosted stack: trọng số MIT trên HF; Flash 160GB chạy được trên M5 MacBook Pro 128GB với quantization nhẹ, theo Simon Willison.
1M-context mà không đốt tiền: benchmark retrieval chưa vượt Opus, nhưng chi phí serving rẻ hơn bậc độ lớn — đánh đổi hợp lý cho phần lớn use-case.

Giới hạn & pricing

Đừng kỳ vọng V4 "giải quyết" mọi thứ. Những nơi frontier đóng vẫn dẫn: long-context retrieval tuyệt đối (Opus), terminal agent (GPT-5.5 Terminal-Bench 82.7% vẫn một tier riêng), GDPval knowledge-work. Nếu stack của bạn phụ thuộc mấy điểm này, chưa phải lúc chuyển hẳn.

Bảng giá (per million tokens):

Model	Input (miss)	Input (hit)	Output
deepseek-v4-flash	$0.14	$0.028	$0.28
deepseek-v4-pro	$1.74	$0.145	$3.48

Sẵn sàng ngay: chat.deepseek.com (Expert/Instant Mode), API deepseek-v4-pro / deepseek-v4-flash, trọng số trên Hugging Face (MIT). Các endpoint cũ deepseek-chat và deepseek-reasoner sẽ dừng hoạt động sau 24/7/2026, 15:59 UTC — hiện đang route tới v4-flash.

Đây là preview. Bản V4 chính thức chưa có ngày cụ thể trong công bố. Nhưng khung cảnh đã rõ: mã nguồn mở đang đẩy cùng lúc trên context dài, coding agent, tương thích API và cấu trúc chi phí. Flash có thể là sleeper ở đây — nếu gần đủ tốt cho task thực trong khi rẻ và nhanh hơn nhiều, đó mới là nơi adoption cộng dồn.

Câu hỏi không còn là "model nào thông minh nhất" mà là: với workload cụ thể của bạn, intelligence per dollar per token ở đâu tốt nhất? Với nhiều team trả lời hôm nay có thể sẽ là deepseek-v4-flash.

Nguồn: DeepSeek API Docs, Hugging Face model card, Simon Willison, CNBC, TechNode, Ofox AI.

DeepSeek V4 Preview: 1.6T open-source MoE, 1M context, và cuộc đua mới về chi phí mỗi token

TL;DR

Cái gì mới?

Vì sao chuyện này đáng chú ý?

Bên dưới có gì?

So với GPT-5.4, Gemini-3.1-Pro, Opus-4.6, K2.6

Ai hưởng lợi rõ nhất?

Giới hạn & pricing

Tiếp theo

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding