TL;DR

DeepSeek công bố V4 Flash ngày 24/04/2026, mở trọng số theo license MIT. Trên bảng xếp hạng Artificial Analysis Intelligence Index, hai tier reasoning cùng mô hình đạt 47 (Max) và 45 (High). Điểm gây sốc không phải score — mà là cost-per-benchmark: Flash (Max) dùng tới 240M output tokens (nhiều nhất nhóm) nhưng chỉ tốn $113 để chạy full Intelligence Index, so với $418 của Qwen-3.5 397B-A17B và $278 của Gemini 3 Flash. Giá token rẻ thẳng tay vô hiệu hóa lợi thế "ngắn gọn" của đối thủ.

What's new

V4 Flash là biến thể MoE 284B tổng / 13B active, context 1M tokens, 384K max output, chạy ở 84.7 tokens/giây (trên median 52.5 t/s của nhóm open-weight cùng size). DeepSeek expose hai chế độ reasoning: HighMax — khác nhau ở lượng token mô hình được phép "suy nghĩ" trước khi trả lời. Max mode vắt thêm ~2 điểm Intelligence Index đổi lấy gấp 2.4 lần output tokens so với High.

Con số benchmark

Artificial Analysis công bố chi tiết chi phí + token usage khi chạy Intelligence Index cho 4 model tầm trung. Đây là bảng so sánh gốc:

ModelOutput tokens (benchmark)Cost to runAA Intelligence Index
DeepSeek V4 Flash (Max)240M$11347
DeepSeek V4 Flash (High)99M$5745
Qwen-3.5 397B-A17B86M$418
Gemini 3 Flash72M$278

Median output tokens cho model cùng size: 43M. Flash (Max) vượt median 5.6 lần. Nhưng cost/token của DeepSeek API thấp đến mức tổng chi phí vẫn thấp nhất.

Why it matters

Trước giờ cộng đồng giả định: mô hình verbose = tốn tiền. V4 Flash phá vỡ giả định đó. Khi giá output chỉ $0.28/M tokens, bạn có thể chi xài 3× token hơn đối thủ mà tổng bill vẫn thấp hơn 2.5–3.7 lần. Điều này định nghĩa lại tradeoff "reasoning depth vs cost" cho bài toán production: bạn không còn phải cắt chain-of-thought để tiết kiệm, chỉ cần chọn model có per-token pricing đủ thấp.

Một góc nhìn khác: chi phí/điểm Intelligence Index. Flash (Max) tốn ~$2.40 cho mỗi điểm benchmark. Nếu Qwen-3.5 có cùng score 47 (giả định), chi phí/điểm sẽ là ~$8.90 — gấp 3.7 lần. Trong môi trường enterprise nơi mỗi pipeline có thể chạy hàng nghìn eval/ngày, khoảng cách này nhân lên nhanh chóng thành hàng chục nghìn USD/tháng.

Đáng chú ý nữa: cache hit $0.028/M input rẻ hơn 5× so với cache miss. Với RAG pipeline tái sử dụng cùng corpus (legal docs, code base, knowledge base nội bộ), chi phí input gần như về 0. Đây là lợi thế kiến trúc mà các provider closed-source khó mô phỏng vì họ giấu hit-rate cache.

Pricing

  • Input: $0.14/M tokens (cache miss) — $0.028/M (cache hit, rẻ 5×)
  • Output: $0.28/M tokens
  • So với GPT-5.4 Nano: $0.20 input / $1.25 output — Flash rẻ hơn 4.5× ở output
  • So với V4-Pro (anh trai 1.6T): Flash rẻ hơn 12× ở output, trong khi chỉ kém 1–3 điểm trên hầu hết benchmark kiến thức

Use cases

  • Agentic workflow dài: chain-of-thought nhiều bước không còn "phạt" ngân sách khi Max mode chỉ $0.28/M output
  • Code gen quy mô lớn: LiveCodeBench 91.6 với $0.28/M output là tỷ lệ hiếm có
  • Long-context RAG / phân tích doc 1M tokens: input $0.14/M + cache hit $0.028/M giúp re-process cùng tài liệu gần như miễn phí
  • Thay thế tier trung cấp: ai đang chạy model ở khoảng $1–2/M output nên benchmark lại với Flash-Max
  • Self-host: weights 160GB trên HuggingFace, chạy được trên multi-GPU prosumer

Limitations & caveats

  • Verbose tier Max dùng tới 240M tokens chạy AA Index — latency per task cũng cao hơn tương ứng, không phù hợp UX real-time chat
  • V4-Pro vẫn tốt hơn trên benchmark agentic khó nhất; production frontier-grade nên Pro
  • Con số của Artificial Analysis là đo trên API DeepSeek — workload thực tế của bạn có thể khác
  • Qwen-3.5 397B-A17B và Gemini 3 Flash là closed API — chi phí cao hơn phản ánh cả pricing nhà cung cấp, không chỉ efficiency mô hình

What's next

V4-Pro đang được phân phối rộng hơn qua OpenRouter, HuggingFace, và các bên host thứ ba. Với giá/hiệu năng kiểu này, áp lực lên tier trung cấp của OpenAI / Anthropic / Google sẽ tăng mạnh trong quý 2/2026. Đáng chú ý: cache hit $0.028/M input là mức gần như miễn phí cho các pipeline RAG tái sử dụng cùng document corpus.

Nguồn: Artificial Analysis — V4 Flash Max, V4 Flash High, Simon Willison, AiBattle.