DeepSeek V4 Flash đốt 240M tokens để chạy benchmark — vẫn rẻ hơn Qwen 3.5 tới 3.7 lần

TL;DR

DeepSeek công bố V4 Flash ngày 24/04/2026, mở trọng số theo license MIT. Trên bảng xếp hạng Artificial Analysis Intelligence Index, hai tier reasoning cùng mô hình đạt 47 (Max) và 45 (High). Điểm gây sốc không phải score — mà là cost-per-benchmark: Flash (Max) dùng tới 240M output tokens (nhiều nhất nhóm) nhưng chỉ tốn $113 để chạy full Intelligence Index, so với $418 của Qwen-3.5 397B-A17B và $278 của Gemini 3 Flash. Giá token rẻ thẳng tay vô hiệu hóa lợi thế "ngắn gọn" của đối thủ.

What's new

V4 Flash là biến thể MoE 284B tổng / 13B active, context 1M tokens, 384K max output, chạy ở 84.7 tokens/giây (trên median 52.5 t/s của nhóm open-weight cùng size). DeepSeek expose hai chế độ reasoning: High và Max — khác nhau ở lượng token mô hình được phép "suy nghĩ" trước khi trả lời. Max mode vắt thêm ~2 điểm Intelligence Index đổi lấy gấp 2.4 lần output tokens so với High.

Con số benchmark

Artificial Analysis công bố chi tiết chi phí + token usage khi chạy Intelligence Index cho 4 model tầm trung. Đây là bảng so sánh gốc:

Model	Output tokens (benchmark)	Cost to run	AA Intelligence Index
DeepSeek V4 Flash (Max)	240M	$113	47
DeepSeek V4 Flash (High)	99M	$57	45
Qwen-3.5 397B-A17B	86M	$418	—
Gemini 3 Flash	72M	$278	—

Median output tokens cho model cùng size: 43M. Flash (Max) vượt median 5.6 lần. Nhưng cost/token của DeepSeek API thấp đến mức tổng chi phí vẫn thấp nhất.

Why it matters

Trước giờ cộng đồng giả định: mô hình verbose = tốn tiền. V4 Flash phá vỡ giả định đó. Khi giá output chỉ $0.28/M tokens, bạn có thể chi xài 3× token hơn đối thủ mà tổng bill vẫn thấp hơn 2.5–3.7 lần. Điều này định nghĩa lại tradeoff "reasoning depth vs cost" cho bài toán production: bạn không còn phải cắt chain-of-thought để tiết kiệm, chỉ cần chọn model có per-token pricing đủ thấp.

Một góc nhìn khác: chi phí/điểm Intelligence Index. Flash (Max) tốn ~$2.40 cho mỗi điểm benchmark. Nếu Qwen-3.5 có cùng score 47 (giả định), chi phí/điểm sẽ là ~$8.90 — gấp 3.7 lần. Trong môi trường enterprise nơi mỗi pipeline có thể chạy hàng nghìn eval/ngày, khoảng cách này nhân lên nhanh chóng thành hàng chục nghìn USD/tháng.

Đáng chú ý nữa: cache hit $0.028/M input rẻ hơn 5× so với cache miss. Với RAG pipeline tái sử dụng cùng corpus (legal docs, code base, knowledge base nội bộ), chi phí input gần như về 0. Đây là lợi thế kiến trúc mà các provider closed-source khó mô phỏng vì họ giấu hit-rate cache.

Pricing

Input: $0.14/M tokens (cache miss) — $0.028/M (cache hit, rẻ 5×)
Output: $0.28/M tokens
So với GPT-5.4 Nano: $0.20 input / $1.25 output — Flash rẻ hơn 4.5× ở output
So với V4-Pro (anh trai 1.6T): Flash rẻ hơn 12× ở output, trong khi chỉ kém 1–3 điểm trên hầu hết benchmark kiến thức

Use cases

Agentic workflow dài: chain-of-thought nhiều bước không còn "phạt" ngân sách khi Max mode chỉ $0.28/M output
Code gen quy mô lớn: LiveCodeBench 91.6 với $0.28/M output là tỷ lệ hiếm có
Long-context RAG / phân tích doc 1M tokens: input $0.14/M + cache hit $0.028/M giúp re-process cùng tài liệu gần như miễn phí
Thay thế tier trung cấp: ai đang chạy model ở khoảng $1–2/M output nên benchmark lại với Flash-Max
Self-host: weights 160GB trên HuggingFace, chạy được trên multi-GPU prosumer

Limitations & caveats

Verbose tier Max dùng tới 240M tokens chạy AA Index — latency per task cũng cao hơn tương ứng, không phù hợp UX real-time chat
V4-Pro vẫn tốt hơn trên benchmark agentic khó nhất; production frontier-grade nên Pro
Con số của Artificial Analysis là đo trên API DeepSeek — workload thực tế của bạn có thể khác
Qwen-3.5 397B-A17B và Gemini 3 Flash là closed API — chi phí cao hơn phản ánh cả pricing nhà cung cấp, không chỉ efficiency mô hình

What's next

V4-Pro đang được phân phối rộng hơn qua OpenRouter, HuggingFace, và các bên host thứ ba. Với giá/hiệu năng kiểu này, áp lực lên tier trung cấp của OpenAI / Anthropic / Google sẽ tăng mạnh trong quý 2/2026. Đáng chú ý: cache hit $0.028/M input là mức gần như miễn phí cho các pipeline RAG tái sử dụng cùng document corpus.

Nguồn: Artificial Analysis — V4 Flash Max, V4 Flash High, Simon Willison, AiBattle.

DeepSeek V4 Flash đốt 240M tokens để chạy benchmark — vẫn rẻ hơn Qwen 3.5 tới 3.7 lần

TL;DR

What's new

Con số benchmark

Why it matters

Pricing

Use cases

Limitations & caveats

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding