DeepSeek V4 lộ diện: 1.6 nghìn tỷ tham số, context 1M token, rẻ hơn GPT-5.5 gấp 7 lần

TL;DR

DeepSeek phát hành V4 Preview ngày 24/04/2026 với hai biến thể Mixture-of-Experts: V4-Pro (1.6T tổng / 49B active) — model open-weight lớn nhất thế giới hiện nay — và V4-Flash (284B / 13B active). Cả hai đều dùng context 1M token mặc định, MIT license, hỗ trợ thinking/non-thinking, và tích hợp sẵn với Claude Code, OpenCode. Giá V4-Pro chỉ $1.74/$3.48 per 1M token input/output — khoảng 1/7 chi phí của Claude Opus 4.7 và GPT-5.5. Hiệu năng coding ngang GPT-5.4, reasoning vượt GPT-5.2 và Gemini 3.0 Pro, tụt sau frontier ~3–6 tháng theo chính thừa nhận của DeepSeek.

Điều gì mới?

Đây là bản cập nhật major đầu tiên kể từ V3.2 (12/2025) và là model đầu tiên của series V4. Hai điểm thay đổi cấu trúc đáng chú ý:

Token-wise compression + DeepSeek Sparse Attention (DSA) — cơ chế attention mới được thiết kế riêng cho long context.
1M token context trở thành mặc định trên toàn bộ dịch vụ DeepSeek. Đủ để nhồi cả codebase lớn hoặc tài liệu hàng nghìn trang vào một prompt.

Cả hai model đều text-only — không hỗ trợ hiểu hay sinh audio/ảnh/video. API mới dùng tag deepseek-v4-pro và deepseek-v4-flash, tương thích cả OpenAI ChatCompletions lẫn Anthropic API. Endpoint cũ deepseek-chat và deepseek-reasoner sẽ retire ngày 24/07/2026.

Vì sao đáng quan tâm?

R1 đã làm rung chuyển thị trường cuối 2024 vì chứng minh được rằng AI Trung Quốc có thể cạnh tranh ở tier cao với chi phí thấp. V4 đẩy luận điểm đó đi xa hơn: không phải kém một chút và rẻ một chút, mà gần ngang frontier với giá chỉ bằng 1/7. Quan trọng không kém: Huawei xác nhận cluster Ascend mới nhất hỗ trợ chạy V4 native. Đây là nước cờ “AI sovereignty” của Trung Quốc — giảm phụ thuộc Nvidia trong bối cảnh export control của Mỹ ngày càng siết.

Thông số kỹ thuật

Thuộc tính	V4-Pro	V4-Flash
Tổng tham số	1.6T	284B
Active per token	49B	13B
Kích thước trên Hugging Face	865 GB	160 GB
Context window	1M token	1M token
Kiến trúc	MoE + DSA	MoE + DSA
License	MIT	MIT
Modality	Text-only	Text-only

Nhờ DSA, ở context 1M token V4-Pro chỉ tiêu thụ 27% FLOPs và 10% KV cache so với V3.2. V4-Flash đẩy hiệu suất lên cực điểm: 10% FLOPs và 7% KV cache so với V3.2. Đây là lý do giá API có thể thấp đến vậy.

So sánh giá với các frontier model

Model	Input ($/M)	Output ($/M)
DeepSeek V4 Flash	$0.14	$0.28
GPT-5.4 Nano	$0.20	$1.25
Gemini 3.1 Flash-Lite	$0.25	$1.50
Claude Haiku 4.5	$1	$5
DeepSeek V4 Pro	$1.74	$3.48
Gemini 3.1 Pro	$2	$12
GPT-5.4	$2.50	$15
Claude Opus 4.7	$5	$25
GPT-5.5	$5	$30

V4-Pro là frontier-class model rẻ nhất hiện có. V4-Flash thậm chí đập giá small-model tier — rẻ hơn cả GPT-5.4 Nano. Trên benchmark coding, cả hai đạt mức “comparable to GPT-5.4”. Reasoning của V4-Pro-Max vượt GPT-5.2 và Gemini 3.0 Pro, chỉ tụt sau GPT-5.4 và Gemini 3.1 Pro một khoảng nhỏ — DeepSeek tự thừa nhận trong tech report là “trails state-of-the-art frontier models by approximately 3 to 6 months”.

Use case mạnh nhất

Agentic coding với ngân sách hạn chế: SOTA mã nguồn mở trên benchmark agentic coding. Drop-in vào Claude Code, OpenCode, OpenClaw — đổi base URL và model tag là xong.
Phân tích codebase / tài liệu khổng lồ: 1M token đủ nhồi cả monorepo trung bình hoặc tài liệu hàng nghìn trang.
Self-host / sovereign deploy: MIT license, weights công khai trên Hugging Face. Flash 160GB có khả năng chạy quantized trên MacBook Pro M5 128GB RAM (theo Simon Willison).
Triển khai trên hạ tầng Trung Quốc: Huawei Ascend cluster đã hỗ trợ V4 native — phương án thực tế cho doanh nghiệp Trung Quốc bị giới hạn truy cập Nvidia.

Hạn chế & điều cần biết

Text-only. Mọi đối thủ frontier đều multimodal — V4 không xử lý hay sinh audio, ảnh, video.
Knowledge gap với GPT-5.4 và Gemini 3.1 Pro trên các bài test world knowledge — DeepSeek thừa nhận tụt sau ~3–6 tháng.
Tool-calling và censorship còn ràng buộc — model train ở Trung Quốc, hành vi với chủ đề nhạy cảm là điều có thể đoán trước.
“Preview” status — chưa phải bản V4 final. V4-Pro-Max được nhắc tới trong paper là biến thể đầy đủ sẽ ra sau.
Tỷ lệ Huawei Ascend vs Nvidia trong training không được công bố. Chạy native trên Ascend đã xác nhận, nhưng quá trình train thực sự dùng chip nào thì DeepSeek im lặng.

Tiếp theo là gì?

Trong ngắn hạn, đội Unsloth được kỳ vọng sẽ sớm ra bản quantized để mọi người chạy local. Endpoint cũ deepseek-chat và deepseek-reasoner sẽ tắt vĩnh viễn ngày 24/07/2026 — anh em đang dùng API cũ cần migrate. DeepSeek nhắc lại cam kết “longtermism, advancing steadily toward AGI” trong release note. Phân tích từ Counterpoint và Morningstar đồng ý rằng V4 sẽ không tạo cú sốc thị trường như R1 — nhưng lý do là vì thị trường đã price-in sự thật rằng Chinese AI cạnh tranh và rẻ hơn, chứ không phải V4 yếu hơn R1.

Nguồn: DeepSeek API Docs, Simon Willison, TechCrunch, VentureBeat, CNBC.

DeepSeek V4 lộ diện: 1.6 nghìn tỷ tham số, context 1M token, rẻ hơn GPT-5.5 gấp 7 lần

TL;DR

Điều gì mới?

Vì sao đáng quan tâm?

Thông số kỹ thuật

So sánh giá với các frontier model

Use case mạnh nhất

Hạn chế & điều cần biết

Tiếp theo là gì?

Bài liên quan

DeepSeek-V4 ra mắt: 1M token context với 10% KV cache và 27% FLOPs của V3.2

DeepSeek V4: 1M context mà agent thật sự dùng được, KV cache chỉ còn 10% V3.2

DeepSeek V4-Flash chạy uncompressed trên 4× RTX 6000: frontier model đầu tiên bạn có thể host tại nhà