Vì sao DeepSeek V4 chậm ra mắt: bóc tách hai 'miếng băng dán' giữ cho quá trình training 33T tokens khỏi vỡ

TL;DR

DeepSeek V4 Preview ra ngày 24/04/2026, chậm gần 5 tháng so với V3.2 (tháng 12/2025). Khoảng trống đó không phải do scaling khó — mà do quá trình training vấp phải instabilities khi tokens nhảy từ ~15T (V3) lên 33T (V4-Pro). Báo cáo nhắc từ "stability" hơn 10 lần, nhưng cuối cùng dựa trên hai mẹo: Anticipatory Routing (dùng trọng số quá khứ cho router, trọng số hiện tại cho backbone) và SwiGLU Clamping (ghim activation vào [-10, 10]). Hai thứ này đúng là giữ cho loss spike không nổ, nhưng DeepSeek tự thừa nhận "nguyên lý đằng sau vẫn chưa hiểu rõ". Đây là điểm Susan Zhang (@suchenzang) gọi thẳng là băng dán — nhưng vẫn ghi nhận DeepSeek transparent hơn hẳn phần còn lại của ngành.

V4 có gì mới

Bản preview gồm hai model MoE open-weight:

DeepSeek-V4-Pro: 1.6T tham số tổng, 49B active/token, 61 layer, 384 routed experts, pre-train trên 33T tokens.
DeepSeek-V4-Flash: 284B tổng, 13B active, 43 layer, 256 experts, pre-train trên 32T tokens.

Cả hai native 1 triệu token context (mặc định, không phải tier đặc biệt). License MIT, API live ngày đầu với cả OpenAI ChatCompletions và Anthropic formats. Ba mode reasoning: Non-Think, Think High, Think Max. Luận điểm trung tâm: "million-token context không còn là bài toán capability nữa, nó là bài toán efficiency."

Vì sao câu chuyện instability quan trọng

Khi bạn doubles training data (15T → 33T) trên một MoE 1.6T tham số, xác suất loss spike tăng mạnh. Standard bandage của ngành thường là loss-spike recovery — backup checkpoint rồi restart với LR nhỏ hơn. DeepSeek chọn hướng khác: proactive stabilizers. Vấn đề là hai stabilizer chính của họ nhìn giống mẹo kỹ thuật hơn là breakthrough nguyên lý.

Đây là điểm Susan Zhang, một nhà nghiên cứu systems nổi tiếng vì đã dẫn dắt pretrain OPT-175B ở Meta, nhìn thẳng trên X: "DeepSeek không fix được training instabilities sau khi double tokens từ ~15T ở V3 lên ~33T ở V4… 10+ lần nhắc đến 'stability' có vẻ thiếu sót nếu hai thứ này là miếng băng dán chính (mismatched routing + clamping). Nhưng ghi nhận sự transparency, như mọi khi!"

Bóc tách kỹ thuật: hai miếng băng dán

1. Anticipatory Routing — "mismatched routing"

Trong MoE chuẩn, ở mỗi step training, router và backbone đều update từ cùng một bộ trọng số. DeepSeek V4 tách hai đường này ra khi phát hiện loss spike: backbone dùng trọng số hiện tại để tính features, nhưng router dùng trọng số từ 1 step trước (historical, fetched in advance) để quyết định gửi token tới expert nào.

Lý thuyết phía sau: khi loss spike, phân bố activation lệch, đẩy router vào trạng thái xấu; việc giữ router ở một step cũ hơn cho nó "quán tính" không theo kịp cú sốc, nhờ vậy token vẫn được định tuyến tới experts ổn định cho tới khi backbone điều chỉnh xong. Chính cơ chế này là cái Zhang gọi là mismatched routing — và DeepSeek tự nhận chưa hiểu sâu tại sao nó hiệu quả.

2. SwiGLU Clamping — ghim activation

SwiGLU là activation function trong FFN của hầu hết LLM hiện đại. Ở scale 1.6T với data 33T, thành phần linear của SwiGLU có thể blow up số học, kéo theo gradient explosion. DeepSeek hard-clamp:

Linear component: [-10, 10]
Upper gate: capped tại 10

Kết quả: tránh được các phase "loss-spike recovery" đau đớn mà không làm tổn hại chất lượng model cuối. Nhưng về bản chất, đây là hard-coded numerical safety net — không phải invariant được chứng minh toán học.

3. Manifold-Constrained Hyper-Connections (mHC) — cái này nguyên tắc hơn

Ở vị trí residual connection, V4 thay bằng mHC — buộc mapping nằm trên Birkhoff polytope (đa tạp các ma trận doubly stochastic). Điều này ghim spectral norm ≤ 1 nên signal propagation không khuếch đại qua 61 layer. Đây là phần toán đàng hoàng, và nó giải thích tại sao V4 lên được scale 1.6T. So với mHC thì hai mẹo trên nhìn thực sự như band-aid.

So sánh V3 → V4: cái giá của doubling data

Metric	V3.2	V4-Flash	V4-Pro
Total params	671B	284B	1.6T
Active params	37B	13B	49B
Training tokens	~15T	32T	33T
Optimizer	AdamW	Muon	Muon
Single-token FLOPs @1M	100% (baseline)	10%	27%
KV cache @1M	100% (baseline)	7%	10%

Phần lớn các performance win đều xứng đáng: LiveCodeBench 93.5 (new open high), Codeforces 3206 (xếp hạng 23 trong số human competitors — lần đầu một open model ngang ngửa closed frontier ở competitive programming), Putnam-2025 đạt 120/120 formal proof. Nhưng gap với GPT-5.4 và Gemini 3.1 Pro trên knowledge-heavy benchmark vẫn còn — DeepSeek tự ước lượng "chậm hơn frontier khoảng 3 đến 6 tháng."

Use cases và kinh tế

Với KV cache chỉ 10% của V3.2 ở 1M tokens, một GPU có thể phục vụ ~10× concurrent long-context sessions. Workload $1 trên V3.2 ≈ $0.27 trên V4-Pro, $0.10 trên V4-Flash. Giá API công bố:

V4-Flash: $0.14 in / $0.28 out (rẻ hơn GPT-5.4 Nano)
V4-Pro: $1.74 in / $3.48 out (rẻ nhất trong nhóm frontier lớn)

Tích hợp sẵn Claude Code, OpenClaw, OpenCode. Huawei Ascend 950 hỗ trợ out-of-box — stack AI Trung Quốc có thể hoàn toàn độc lập khỏi GPU Mỹ.

Limitations & pricing — DeepSeek tự thừa nhận

Điểm đáng khen: báo cáo kỹ thuật của DeepSeek liệt kê limitations một cách thẳng thắn hiếm thấy:

Training stability: Anticipatory Routing + SwiGLU Clamping "works in practice nhưng nguyên lý chưa hiểu rõ". Flagged là active foundational research area.
Architecture complexity: Kiến trúc "tương đối phức tạp" vì giữ lại nhiều component V3 để giảm risk; các bản sau sẽ "distill về những design cốt lõi nhất".
Knowledge gap: V4-Pro-Max vẫn sau Gemini 3.1 Pro trên MMLU-Pro, SimpleQA, GPQA Diamond, HLE.
Long-context retrieval ceiling: MRCR rớt xuống 66% ở 1M tokens (vẫn trên hầu hết open models và Gemini nhưng dưới Opus 4.6 với 92.9%).
Text-only: Chưa có multimodal.
Preview tag: Có thể evolve trước khi nhận branding V4 full.

Điều gì tiếp theo

DeepSeek đã công khai roadmap: bản V4 full (hậu preview), multimodal (image/audio/video), architecture distillation (giảm phức tạp), và đặc biệt là foundational research về training stability ở trillion-param scale. Hai endpoint cũ deepseek-chat và deepseek-reasoner sẽ bị retire hoàn toàn vào 24/07/2026, 15:59 UTC — dev phải migrate sang deepseek-v4-pro hoặc deepseek-v4-flash trước mốc đó.

Điểm rút ra: V4 là một model mạnh và rẻ, đẩy open-weight tới sát frontier. Nhưng lời thì thầm quan trọng hơn tin tức benchmark là doubling training tokens ở trillion scale vẫn là bài toán mở, và hai miếng băng dán tên Anticipatory Routing + SwiGLU Clamping là bằng chứng cho thấy cộng đồng vẫn đang vá tại hiện trường thay vì chữa từ gốc. Kudos DeepSeek vì không giấu chuyện đó.

Nguồn: DeepSeek-V4 Tech Report, Simon Willison, Hugging Face blog, @suchenzang trên X.

Vì sao DeepSeek V4 chậm ra mắt: bóc tách hai 'miếng băng dán' giữ cho quá trình training 33T tokens khỏi vỡ

TL;DR

V4 có gì mới

Vì sao câu chuyện instability quan trọng

Bóc tách kỹ thuật: hai miếng băng dán

1. Anticipatory Routing — "mismatched routing"

2. SwiGLU Clamping — ghim activation

3. Manifold-Constrained Hyper-Connections (mHC) — cái này nguyên tắc hơn

So sánh V3 → V4: cái giá của doubling data

Use cases và kinh tế

Limitations & pricing — DeepSeek tự thừa nhận

Điều gì tiếp theo

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding