DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7

Summary post

DeepSeek V4 Pro mới ra (24/4/2026) vừa được demo tự giải SQL Injection cấp expert trên PortSwigger trong 3 phút, 26 tool call — 100% autonomous. Cộng thêm 2 web challenge khác và 1 app Android thật, mỗi run được Claude Opus 4.7 review độc lập. Đây không chỉ là model coding mạnh — đây là tín hiệu mô hình open-source 7× rẻ hơn Claude Opus đã đủ ngưỡng dùng cho agentic security work.

7phút đọc

8mục nội dung

5chủ đề

TL;DR

DeepSeek V4 Pro (1.6T tham số, 49B active, MIT license, ra mắt 24/4/2026) vừa được người dùng @Tur24Tur demo: tự giải 3 web challenge cấp expert của PortSwigger + 1 app Android thật, mỗi run review độc lập bởi Claude Opus 4.7. SQL Injection: 26 tool call, 3 phút. Đây là lần đầu một model open-weight thực sự dùng được cho agentic pentesting — và rẻ hơn Claude Opus 4.7 đến 7×.

Có gì mới

DeepSeek công bố V4 Preview ngày 24/4/2026 trên Hugging Face, API và chat.deepseek.com. Model gồm 2 SKU: V4-Pro (1.6T tổng / 49B active) và V4-Flash (284B / 13B). Cả hai mặc định context 1 triệu token — không phải tính năng add-on mà là baseline.

Điểm khiến cộng đồng security chú ý: ngay sau khi model release, nhiều demo tự động hóa pentesting xuất hiện. Tweet của @Tur24Tur tổng kết 4 thử nghiệm autonomous: 3 PortSwigger expert challenges + 1 app Android, tất cả V4 Pro tự chạy đến hết, mỗi log run sau đó được Claude Opus 4.7 review để xác minh không có lỗi suy luận. Run đầu tiên — SQL Injection — chỉ mất 26 tool call và 3 phút.

Vì sao quan trọng

Trước V4, agentic security work nghiêm túc gần như chỉ có 2 lựa chọn: Claude Opus hoặc GPT-5.x — cả hai đều closed-weight, đắt và phải gửi code/payload qua API ngoài. V4 Pro thay đổi cả ba điều đó cùng lúc: open weights MIT, self-host được, giá API $1.74 input / $3.48 output per 1M token — Claude Opus 4.7 là $5 / $25, gấp 7 lần.

Với một SWE/security agent chạy 100M token output mỗi tháng, chênh lệch là $348 vs $2,500. Quan trọng hơn: với open weights, team enterprise có thể chạy cục bộ trên private code mà không lo data sovereignty.

Số liệu kỹ thuật

Property	V4-Pro	V4-Flash
Total params	1.6T	284B
Active params/token	49B	13B
Layers	61	43
Routed experts	384 (+1 shared)	256 (+1 shared)
Training tokens	33T	32T
Context window	1M (default)	1M (default)
License	MIT	MIT

Innovation chính là kiến trúc Hybrid Attention: Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA). Ở context 1M token, V4-Pro chỉ dùng 27% FLOP và 10% KV cache so với V3.2 — KV cache nhỏ 10 lần đồng nghĩa cùng một GPU phục vụ được ~10× lượng session long-context. Đó là lý do 1M context trở thành mặc định, không phải premium tier.

Stability ở scale 1.6T do Manifold-Constrained Hyper-Connections (mHC): kéo signal amplification từ 3,000× xuống 1.6×, kết hợp với optimizer Muon (thay AdamW). Routed expert weights lưu FP4, các weight khác FP8.

So sánh frontier

Benchmark	V4-Pro-Max	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
LiveCodeBench	93.5%	88.8%	—	91.7%
Codeforces (rating)	3,206	—	3,168	3,052
SWE-bench Verified	80.6%	80.8%	—	80.6%
Terminal-Bench 2.0	67.9%	65.4%	75.1%	68.5%
Toolathlon	51.8%	47.2%	54.6%	48.8%
SimpleQA-Verified	57.9%	46.2%	45.3%	75.6%
HLE (no tools)	37.7%	40.0%	39.8%	44.4%

Đọc bảng: V4-Pro thắng rõ ở code generation và competitive programming (Codeforces 3,206 — hạng 23 trong dân thi đấu thật), bám sát ở agentic coding, vẫn thua factual recall (Gemini) và HLE. DeepSeek thừa nhận trong tech report là họ "trễ frontier 3–6 tháng". Lưu ý: GPT-5.5 (ra trước V4 một ngày) đẩy Terminal-Bench 2.0 lên 82.7%, mở lại khoảng cách trên agentic.

Use case thực tế

Autonomous web pentesting như demo của @Tur24Tur — V4 Pro có đủ reasoning + tool-call structure để tự xoay sở qua các CTF web challenge có deterministic verifier.
Mobile app analysis — demo Android cho thấy nó cũng xử được static + dynamic analysis app thật.
Local vulnerability research pipeline — context 1M cho phép reasoning cross-file trên codebase private: source-to-sink, SSRF/IDOR/broken access control review, fuzz harness drafting, sanitizer-output triage.
Drop-in cho Claude Code / OpenCode — DeepSeek confirm V4 tích hợp sẵn với Claude Code, OpenCode, OpenClaw. SWE agent ở 100M token/tháng: $348 thay vì $2,500.

Cảnh báo từ Penligent: V4 Pro không phải "magic bug hunter". Demo PortSwigger là môi trường có verifier deterministic. Trong production, V4 Pro phải nằm trong pipeline có static analysis (CodeQL/Semgrep), fuzzing có sandbox, policy engine kiểm scope, và human review — model đề xuất, tool và sandbox verify, người duyệt.

Limitations & pricing

Text-only — chưa nhận image/audio/video. Multimodal đang làm.
Long-context retrieval ceiling — vượt 128K token thì accuracy bắt đầu giảm; ở 1M chỉ còn 66% trên MRCR.
Factual recall kém Gemini 3.1 Pro nhiều (SimpleQA 57.9 vs 75.6).
Preview tag — DeepSeek nói còn post-training refine.
Không có Jinja chat template — phải dùng encoding_dsv4.py trong repo để build prompt đúng.
API host ở Trung Quốc — data sovereignty là vấn đề với regulated workload; mitigation: self-host weight MIT.

Pricing per 1M token: V4-Pro $0.145 (cache hit) / $1.74 (cache miss) input, $3.48 output. V4-Flash $0.028 / $0.14 / $0.28 — rẻ nhất phân khúc small model, dưới cả GPT-5.4 Nano.

Timeline & what's next

API live ngay 24/4/2026 với model ID deepseek-v4-pro và deepseek-v4-flash, hỗ trợ cả OpenAI ChatCompletions và Anthropic format. Endpoint cũ deepseek-chat + deepseek-reasoner sẽ retire 15:59 UTC ngày 24/7/2026 — developer phải migrate trước hạn.

Roadmap (chưa có ngày): multimodal, distill kiến trúc xuống bare essentials, foundational research về training stability. Mục tiêu dài hạn vẫn là AGI.

Câu chuyện thực sự không phải V4 Pro có vượt Claude Opus 4.7 hay không (chưa) — mà là: lần đầu một model open-weight đủ ngưỡng để tự chạy expert pentesting CTF với tỷ lệ thành công đáng tin, ở giá 1/7 closed-source. Đó là điểm uốn trong kinh tế của agentic security.

Nguồn: DeepSeek API Docs, Hugging Face model card, Penligent, Simon Willison, @Tur24Tur.

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7

TL;DR

Có gì mới

Vì sao quan trọng

Số liệu kỹ thuật

So sánh frontier

Use case thực tế

Limitations & pricing

Timeline & what's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face