DeepSeek V4 Pro tự giải 4 challenge bảo mật expert-level chỉ với $6.84

Summary post

Một developer chạy DeepSeek V4 Pro autonomous trên 3 lab PortSwigger + 1 Android app thật — 412 tool calls, 4 hạng mục bảo mật khác nhau, được Claude Opus 4.7 review độc lập. Tổng chi phí cả ngày: $6.84.

7phút đọc

7mục nội dung

6chủ đề

TL;DR

Đúng 2 ngày sau khi DeepSeek phát hành V4 Pro (24/04/2026), researcher @Tur24Tur đã thả model này vào 4 thử thách bảo mật expert-level — 3 lab PortSwigger Web Security Academy và 1 Android app thật — và để nó tự xử lý từ đầu đến cuối. Kết quả: 412 tool calls, 4 hạng mục, không copy lời giải, tổng chi phí $6.84. Mỗi run được Claude Opus 4.7 review độc lập để xác nhận model không gian lận. Đây có thể là benchmark agentic độc lập đáng tin cậy nhất của V4 Pro tới giờ.

Chuyện gì vừa xảy ra

DeepSeek V4 Pro là MoE 1.6T tham số (49B active), context 1 triệu token, ra mắt với MIT license và giá rẻ giật mình: $1.74 / 1M input và $3.48 / 1M output — Simon Willison gọi đây là "cheapest of the larger frontier models". Trên giấy, nó SOTA ở agentic coding mã nguồn mở. Câu hỏi mở: nó có thực sự xài được trong workflow autonomous đa bước, hay chỉ thắng benchmark?

@Tur24Tur trả lời câu này theo cách brutal nhất — đẩy nó vào 4 challenge khó, không có hint, không có template, để Claude Opus 4.7 (model frontier của Anthropic) giám sát từng run.

4 run, 4 hạng mục bảo mật

Challenge	Tool calls	Thời gian
SQL Injection (PortSwigger)	26	3 phút
Android Root Detection Bypass (real APK)	102	16 phút
Reflected XSS + AngularJS sandbox escape + CSP bypass	142	71 phút
Web Cache Deception	142	35 phút
Tổng	412	~125 phút

Riêng case Android không phải lab giả lập — đó là một app Android thật cần bypass root detection. Còn AngularJS sandbox escape + CSP bypass thuộc nhóm bài expert của PortSwigger, đa số researcher con người mất vài giờ đến vài ngày để giải tay.

Có 2 task khác bị fail giữa chừng do bug trong agent harness (không phải lỗi model). Sau khi tác giả fix bug và chạy lại, cả 2 đều pass.

Tại sao đáng quan tâm

Ba điểm:

Tool calling thật sự work ở scale cao. 142 tool calls trong một single autonomous run cho XSS sandbox escape là con số rất khó với hầu hết model open-weight. Phần lớn agent stack open-source vỡ ngữ cảnh hoặc lặp loop trước khi đến mốc 50 calls.
Chi phí gần như không đáng kể. $6.84 cho 6 expert security task (gồm 2 retry) = chưa tới $1.15 mỗi task. Cùng workload chạy trên Claude Opus 4.7 hoặc GPT-5.4 sẽ tốn cao hơn nhiều lần.
Cross-model peer review. Việc dùng Claude Opus 4.7 review từng run của V4 Pro là pattern hay: bạn dùng model frontier (đắt) để verify, model rẻ để execute. Đây là kiến trúc 2-tier hiệu quả cho autonomous workflow nói chung, không chỉ security.

Đặt vào bối cảnh kỹ thuật

V4 Pro không chỉ rẻ — nó cũng nhanh và nhẹ:

SWE-bench Verified: 80.6% — chênh 0.2 điểm so với Claude Opus 4.6
MMLU 88.4%, MMLU-Pro ngang GPT-5.4
Attention mới: token-wise compression + DSA (DeepSeek Sparse Attention) — chỉ 27% FLOPs/token và 10% KV cache size so với V3.2
Tích hợp sẵn Claude Code, OpenCode, OpenClaw — bạn không cần build agent harness từ đầu

Điểm yếu: HLE chỉ 37.7%, SimpleQA-Verified 57.9% (Gemini-3.1-Pro 75.6%) — V4 Pro vẫn hổng kiến thức factual so với frontier. Nhưng với agentic workflow, model có thể search/tool ra fact thay vì nhớ — và đây chính là lý do tool calling tốt quan trọng hơn world knowledge.

Giới hạn cần biết

Vài caveat trước khi bạn copy pattern này:

4 run không phải distribution lớn. Một thread Twitter không phải peer-reviewed paper. Sẽ cần repro độc lập trên nhiều dạng challenge khác.
Bug agent harness — 2/6 task fail vì bug code, không phải lỗi model. Trong production, mỗi tỉ lệ failure 33% kiểu này là red flag dù sau đó pass khi retry.
Authorization. Như Penligent nhấn mạnh: vulnerability discovery autonomous chỉ nên chạy trên target được phép — code của bạn, lab giáo dục, hoặc pentest có hợp đồng. Không phải trên hệ thống public không thuộc bạn.
"Model proposes, tools test." Trust model output mà không verify bằng tool/runtime check là cách dễ nhất để ăn false positive trong security workflow.

Sắp tới là gì

Tác giả thread nói "more experiments coming" — kỳ vọng các đợt thử nghiệm trên CTF, kernel exploit, và pentest target lớn hơn. Phần thú vị nhất sẽ là khi cộng đồng repro được chi phí $6.84 đó trên dataset rộng hơn — nếu đúng, đây là tín hiệu rằng autonomous security agent open-source đã chạm ngưỡng practically affordable.

Với indie developer và team nhỏ, takeaway thực dụng nhất là: bộ đôi rẻ-+-frontier-reviewer (V4 Pro execute, Opus 4.7 verify) là kiến trúc đáng thử cho mọi autonomous pipeline — không chỉ security, mà cả code review, content QA, hay data validation.

Nguồn: @Tur24Tur trên X, DeepSeek API Docs, Simon Willison, Penligent.

DeepSeek V4 Pro tự giải 4 challenge bảo mật expert-level chỉ với $6.84

TL;DR

Chuyện gì vừa xảy ra

4 run, 4 hạng mục bảo mật

Tại sao đáng quan tâm

Đặt vào bối cảnh kỹ thuật

Giới hạn cần biết

Sắp tới là gì

Tiếp tục lướt

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7

DeepSeek V4 Pro tự giải PortSwigger SQLi lab trong 3 phút — Opus 4.7 review từng tool call

AI agent chạy 24/7: 127K workflow, 2.7% lỗi — và REPL loop tự fix on-the-fly