DeepSeek V4 Pro tự giải lab Web Cache Deception expert của PortSwigger — 142 lần thử và một bài học về AI agent

TL;DR

Một researcher (@Tur24Tur) đã đưa cho DeepSeek V4 Pro một mục tiêu đơn giản: solo lab Exploiting exact-match cache rules for web cache deception — bài expert-level của PortSwigger Web Security Academy. Chỉ có credentials wiener:peter và curl. Agent đã hoàn thành toàn bộ chuỗi tấn công — cache deception → đánh cắp CSRF token của admin → CSRF đổi email admin — sau 142 tool call trong 35 phút, gấp khoảng 3.5× số call một con người lành nghề cần. Khoảng 60 call bị đốt vào việc fight với URL encoding. Nhưng nó không bỏ cuộc.

Chuyện gì vừa xảy ra

Đây không phải benchmark được đóng gói sẵn. Đây là một AI agent mở terminal, gõ curl, đọc header, suy luận — như một junior pentester thật. Và nó giải xong một lab mà PortSwigger phân loại expert.

Mục tiêu: đổi email của user administrator. Khởi điểm: tài khoản wiener:peter. Không hint, không scaffold — chỉ là một loop reasoning + bash. Agent harness chạy DeepSeek V4 Pro vừa mới release ngày 24/04/2026, kèm đánh giá của Simon Willison nói model gần ngang frontier với chi phí một phần nhỏ.

Vì sao đáng chú ý

Có hai thứ thú vị ở đây, và chúng kéo nhau theo hai hướng ngược chiều:

Hướng tích cực: Một model open-weights, MIT license, giá $1.74 / $3.48 trên 1M token, vừa tự giải xong một bài security expert. 142 call curl ở mức giá đó tốn vài cent. Nói cách khác, agentic offensive security đã bước vào vùng giá quá rẻ để bỏ qua.
Hướng cảnh tỉnh: Cách nó giải lab là brute-force tinh thần. Nó cứ thử-fail-thử-fail cho đến khi đoán được pattern URL encoding đúng. Một con người pentester sẽ đọc spec Spring matrix variable trong 30 giây và xong. Agent đốt 60 call để học bài học đó qua đường dài.

Cả hai đều đúng. Sự kết hợp giữa rẻ và kiên trì như con bò chính là profile mà nhiều người vẫn đánh giá thấp ở các open model — nhưng lại là profile gần nhất với một thực tập sinh thật sự.

Sự thật kỹ thuật

Vài số liệu chính từ run này và từ DeepSeek V4 Pro:

Hạng mục	Giá trị
Model	DeepSeek V4 Pro (MoE, 1.6T tổng / 49B active)
Context	1M tokens
License	MIT (open weights, ~865GB)
Giá API	$1.74 in / $3.48 out per 1M tokens
Terminal-Bench 2.0	67.9% (vs Claude 65.4%)
LiveCodeBench	93.5%
SWE-bench Verified	~80.6%
Tool call dùng cho lab	142
Thời gian	35 phút
Call lãng phí cho URL encoding	~60

Chuỗi exploit thực tế

Recon: đăng nhập bằng wiener:peter, phát hiện /robots.txt trả về X-Cache: hit — tức cache có rule lưu theo exact-match filename.
Path confusion: origin server (Java/Spring) coi ; là delimiter cho matrix variable và cắt path. Cache thì không hiểu — nó normalize %2f%2e%2e%2f thành /../.
Payload: /my-account;%2f%2e%2e%2frobots.txt?wcd — origin nhìn thấy /my-account (trả authed data), cache nhìn thấy robots.txt (lưu như static).
Lure admin qua redirect trên exploit server → response /my-account của admin được lưu vào cache.
Truy cập URL bị poison bằng request không cookie → đọc được CSRF token của admin.
Tạo HTML auto-submit form mang token đó → gửi cho admin → email admin bị đổi → lab solved.

So sánh

Đặt cạnh các frontier model khác:

vs Claude Opus / GPT-5.x: những model này thường giải gọn hơn, ít call hơn, nhưng cũng dễ bỏ cuộc sớm hơn khi gặp encoding edge case. DeepSeek V4 Pro lì hơn — kém thông minh khoảnh khắc nhưng bền bỉ hơn.
vs con người: ~40 call vs 142 — agent kém hiệu quả ~3.5×, nhưng đơn giá API rẻ hơn nhiều lần đơn giá giờ làm việc.
vs DeepSeek V3.2: V4 Pro chỉ tốn 27% FLOPs/token và 10% KV cache size ở context 1M, đồng thời đã được tune cho các harness Claude Code, OpenClaw, OpenCode.

Use case

Auto CTF / lab grinding: ném model vào hộp Burp + curl, để chạy qua đêm trên các bài Web Security Academy.
Agentic red team trợ lý: không thay thế pentester, nhưng giải tốt phần recon thủ công lặp đi lặp lại.
Reasoning layer cho vuln discovery: theo Penligent, ghép V4 Pro với sandbox + duyệt thủ công cho từng bước, đừng để autopilot.
Cost-sensitive automation loops: $1.74/$3.48 cho 1M token làm cho việc chấp nhận lãng phí 60 call vẫn hợp lý.

Hạn chế & pricing

Run này không nên được đọc như "DeepSeek V4 Pro = pentester". Vài cảnh báo thẳng thừng:

Agent đã brute-force vấn đề URL encoding — không suy luận từ doc Spring, không đọc RFC. Đó là kiểu lỗi sẽ scale rất tệ trên các target không có sandbox vô hại như PortSwigger.
First CSRF attack thất bại, agent phải redo cả chuỗi cache deception từ đầu. Trong điều kiện thật, hành vi này dễ bị WAF / rate limit / blue team phát hiện.
Self-host nặng: 865GB weights, lớn hơn cả Kimi K2.6 và GLM-5.1 — chỉ realistic với tổ chức có cluster GPU sẵn.
API pricing: $1.74 / 1M input, $3.48 / 1M output. Free để thử qua DeepSeek API hoặc DeepInfra.
Mọi việc kiểu này phải có scope authorization — chỉ chạy trên lab của chính bạn hoặc trên các bài học chính thức như PortSwigger. Đừng auto-pwn target thật.

Tiếp theo là gì

Hai câu hỏi quan trọng cần trả lời sau khi xem run này:

Liệu các harness chuyên cho security (Caido AI, Burp Copilot, mấy thứ MCP server cho recon) có rút được số tool call từ 142 xuống gần 40 không? Phần lớn lãng phí là encoding — một MCP "encode-aware curl" có thể xoá sạch class lỗi đó.
Khi V4 Flash (284B / 13B active, rẻ hơn nữa) chạy cùng cấu hình, hiệu năng/giá liệu có làm cho việc fan-out 100 agent song song trên các target lớn trở thành chuyện thường?

Câu trả lời sẽ định hình "agentic security" trong 6 tháng tới — và bài lab nhỏ này là một mốc dễ trích dẫn.

Nguồn: @Tur24Tur trên X, PortSwigger Lab, PortSwigger Research — Gotta Cache 'em All, Simon Willison, DeepSeek V4 Pro card.

DeepSeek V4 Pro tự giải lab Web Cache Deception expert của PortSwigger — 142 lần thử và một bài học về AI agent

TL;DR

Chuyện gì vừa xảy ra

Vì sao đáng chú ý

Sự thật kỹ thuật

Chuỗi exploit thực tế

So sánh

Use case

Hạn chế & pricing

Tiếp theo là gì

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

CubeSandbox: Tencent vừa open-source nền tảng chạy hàng nghìn AI agent isolation thật trong vài mili-giây

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7