TL;DR

DeepSeek V4 Pro (1.6T tham số, 49B active, MIT license, ra mắt 24/4/2026) vừa được người dùng @Tur24Tur demo: tự giải 3 web challenge cấp expert của PortSwigger + 1 app Android thật, mỗi run review độc lập bởi Claude Opus 4.7. SQL Injection: 26 tool call, 3 phút. Đây là lần đầu một model open-weight thực sự dùng được cho agentic pentesting — và rẻ hơn Claude Opus 4.7 đến 7×.

Có gì mới

DeepSeek công bố V4 Preview ngày 24/4/2026 trên Hugging Face, API và chat.deepseek.com. Model gồm 2 SKU: V4-Pro (1.6T tổng / 49B active) và V4-Flash (284B / 13B). Cả hai mặc định context 1 triệu token — không phải tính năng add-on mà là baseline.

Điểm khiến cộng đồng security chú ý: ngay sau khi model release, nhiều demo tự động hóa pentesting xuất hiện. Tweet của @Tur24Tur tổng kết 4 thử nghiệm autonomous: 3 PortSwigger expert challenges + 1 app Android, tất cả V4 Pro tự chạy đến hết, mỗi log run sau đó được Claude Opus 4.7 review để xác minh không có lỗi suy luận. Run đầu tiên — SQL Injection — chỉ mất 26 tool call và 3 phút.

Vì sao quan trọng

Trước V4, agentic security work nghiêm túc gần như chỉ có 2 lựa chọn: Claude Opus hoặc GPT-5.x — cả hai đều closed-weight, đắt và phải gửi code/payload qua API ngoài. V4 Pro thay đổi cả ba điều đó cùng lúc: open weights MIT, self-host được, giá API $1.74 input / $3.48 output per 1M token — Claude Opus 4.7 là $5 / $25, gấp 7 lần.

Với một SWE/security agent chạy 100M token output mỗi tháng, chênh lệch là $348 vs $2,500. Quan trọng hơn: với open weights, team enterprise có thể chạy cục bộ trên private code mà không lo data sovereignty.

Số liệu kỹ thuật

PropertyV4-ProV4-Flash
Total params1.6T284B
Active params/token49B13B
Layers6143
Routed experts384 (+1 shared)256 (+1 shared)
Training tokens33T32T
Context window1M (default)1M (default)
LicenseMITMIT

Innovation chính là kiến trúc Hybrid Attention: Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA). Ở context 1M token, V4-Pro chỉ dùng 27% FLOP10% KV cache so với V3.2 — KV cache nhỏ 10 lần đồng nghĩa cùng một GPU phục vụ được ~10× lượng session long-context. Đó là lý do 1M context trở thành mặc định, không phải premium tier.

Stability ở scale 1.6T do Manifold-Constrained Hyper-Connections (mHC): kéo signal amplification từ 3,000× xuống 1.6×, kết hợp với optimizer Muon (thay AdamW). Routed expert weights lưu FP4, các weight khác FP8.

So sánh frontier

BenchmarkV4-Pro-MaxClaude Opus 4.6GPT-5.4Gemini 3.1 Pro
LiveCodeBench93.5%88.8%91.7%
Codeforces (rating)3,2063,1683,052
SWE-bench Verified80.6%80.8%80.6%
Terminal-Bench 2.067.9%65.4%75.1%68.5%
Toolathlon51.8%47.2%54.6%48.8%
SimpleQA-Verified57.9%46.2%45.3%75.6%
HLE (no tools)37.7%40.0%39.8%44.4%

Đọc bảng: V4-Pro thắng rõ ở code generationcompetitive programming (Codeforces 3,206 — hạng 23 trong dân thi đấu thật), bám sát ở agentic coding, vẫn thua factual recall (Gemini) và HLE. DeepSeek thừa nhận trong tech report là họ "trễ frontier 3–6 tháng". Lưu ý: GPT-5.5 (ra trước V4 một ngày) đẩy Terminal-Bench 2.0 lên 82.7%, mở lại khoảng cách trên agentic.

Use case thực tế

  • Autonomous web pentesting như demo của @Tur24Tur — V4 Pro có đủ reasoning + tool-call structure để tự xoay sở qua các CTF web challenge có deterministic verifier.
  • Mobile app analysis — demo Android cho thấy nó cũng xử được static + dynamic analysis app thật.
  • Local vulnerability research pipeline — context 1M cho phép reasoning cross-file trên codebase private: source-to-sink, SSRF/IDOR/broken access control review, fuzz harness drafting, sanitizer-output triage.
  • Drop-in cho Claude Code / OpenCode — DeepSeek confirm V4 tích hợp sẵn với Claude Code, OpenCode, OpenClaw. SWE agent ở 100M token/tháng: $348 thay vì $2,500.

Cảnh báo từ Penligent: V4 Pro không phải "magic bug hunter". Demo PortSwigger là môi trường có verifier deterministic. Trong production, V4 Pro phải nằm trong pipeline có static analysis (CodeQL/Semgrep), fuzzing có sandbox, policy engine kiểm scope, và human review — model đề xuất, tool và sandbox verify, người duyệt.

Limitations & pricing

  • Text-only — chưa nhận image/audio/video. Multimodal đang làm.
  • Long-context retrieval ceiling — vượt 128K token thì accuracy bắt đầu giảm; ở 1M chỉ còn 66% trên MRCR.
  • Factual recall kém Gemini 3.1 Pro nhiều (SimpleQA 57.9 vs 75.6).
  • Preview tag — DeepSeek nói còn post-training refine.
  • Không có Jinja chat template — phải dùng encoding_dsv4.py trong repo để build prompt đúng.
  • API host ở Trung Quốc — data sovereignty là vấn đề với regulated workload; mitigation: self-host weight MIT.

Pricing per 1M token: V4-Pro $0.145 (cache hit) / $1.74 (cache miss) input, $3.48 output. V4-Flash $0.028 / $0.14 / $0.28 — rẻ nhất phân khúc small model, dưới cả GPT-5.4 Nano.

Timeline & what's next

API live ngay 24/4/2026 với model ID deepseek-v4-prodeepseek-v4-flash, hỗ trợ cả OpenAI ChatCompletions và Anthropic format. Endpoint cũ deepseek-chat + deepseek-reasoner sẽ retire 15:59 UTC ngày 24/7/2026 — developer phải migrate trước hạn.

Roadmap (chưa có ngày): multimodal, distill kiến trúc xuống bare essentials, foundational research về training stability. Mục tiêu dài hạn vẫn là AGI.

Câu chuyện thực sự không phải V4 Pro có vượt Claude Opus 4.7 hay không (chưa) — mà là: lần đầu một model open-weight đủ ngưỡng để tự chạy expert pentesting CTF với tỷ lệ thành công đáng tin, ở giá 1/7 closed-source. Đó là điểm uốn trong kinh tế của agentic security.

Nguồn: DeepSeek API Docs, Hugging Face model card, Penligent, Simon Willison, @Tur24Tur.