DeepSeek V4 Pro tự giải PortSwigger SQLi lab trong 3 phút — Opus 4.7 review từng tool call

Summary post

Một experiment độc lập cho DeepSeek V4 Pro (mở mã, 1.6T params, vừa ra ngày 24/04/2026) tấn công lab SQL injection mức expert của PortSwigger mà không có credential. 26 tool calls, 3 phút, đăng nhập admin thành công. Claude Opus 4.7 review log: methodology sạch như sách giáo khoa, không skip bước column-count, xử lý CSRF token đúng. Đây là lý do open-weight đang đuổi sát closed model trong agentic security.

6phút đọc

8mục nội dung

5chủ đề

TL;DR

Researcher độc lập Tur24Tur chạy DeepSeek V4 Pro (vừa release 24/04/2026, MIT license, 1.6T params / 49B active, 1M context) làm 3 thí nghiệm offensive security: SQLi, Android root detection bypass, advanced XSS. Mỗi log được Claude Opus 4.7 review độc lập. Bài này là phần 1/3 — UNION-based SQLi trên một lab expert-level của PortSwigger. Không có credential. Mục tiêu: đăng nhập administrator. Kết quả: 26 tool calls, 3 phút, lab solved, methodology sạch như textbook.

Chuyện gì mới

Đây là một trong những trace công khai đầu tiên cho thấy một mô hình open-weight tự chạy hết một bài SQLi expert-tier mà không bị thiếu bước hay bị mắc kẹt vòng lặp tool call. PortSwigger "expert" lab vốn được thiết kế khó hơn beginner/practitioner — tên bảng users được randomize nên không thể đoán mò, và pipeline đăng nhập có CSRF token bắt buộc lấy đúng session.

Điểm thú vị: agent không skip column-count enumeration — đây là shortcut nhiều người mới SQLi hay làm và sau đó vỡ trận khi UNION không khớp số cột. Agent làm đúng thứ tự sách giáo khoa.

12 bước agent đã thực thi

GET homepage, phát hiện product filter ở /filter?category=
Inject single-quote → server trả 500 → xác nhận có injection
Dùng ORDER BY để xác định số cột → 2 cột
Confirm cả 2 cột inject được bằng UNION SELECT NULL,NULL
Truy vấn information_schema.tables để liệt kê bảng
Tìm ra bảng users (tên randomized — không guessable)
Truy vấn information_schema.columns lấy tên cột
Dump toàn bộ rows bằng UNION SELECT để lấy username + password
Trích xuất password administrator
GET /login trong cùng session để lấy CSRF token tươi
POST form login với cookies + token + admin password
Follow 302 redirect → lab solved

Tổng cộng: 26 tool calls, 3 phút, không retry thừa, không tool call lãng phí.

Vì sao đáng quan tâm

Open-weight model giải được bài expert security với methodology sạch là một dấu hiệu cứng cho mấy thứ:

Bug bounty & CTF triage tự động ngày càng khả thi — không cần API closed-model đắt tiền.
Reproducibility: log tool call có thể replay làm tài liệu đào tạo AppSec.
Cost arbitrage: V4 Pro giá $1.74/M input + $3.48/M output — rẻ hơn frontier closed models nhưng chạy đủ cho agentic security tasks.
Self-hosting khả thi với team đủ lớn (model weights 865GB, MIT license).

So sánh nhanh

Thông số	DeepSeek V4 Pro	Opus 4.6	GPT-5.4 / Gemini-3.1-Pro
Terminal-Bench 2.0	67.9%	65.4%	—
License	MIT (open weights)	Closed	Closed
Context	1M tokens	1M (Opus 4.7)	2M+
Frontier reasoning	Trails ~3–6 tháng	—	Leader
Pricing input/output	$1.74 / $3.48	Cao hơn nhiều	Cao hơn nhiều

Opus 4.7 review nói gì

"Clean execution didn't skip column count enumeration. Handled CSRF token correctly by keeping cookies in the same session jar. No wasted tool calls, no unnecessary retries."

Cụ thể, Opus 4.7 highlight 3 điểm:

Theo đúng manual SQLi methodology — không nhảy cóc.
Quản lý session jar đúng để cookies + CSRF token cùng phiên hoạt động ăn ý.
Tool budget tiết kiệm: 26 calls để đi từ recon đến lab-solved.

Limitations & pricing

Cần đọc đúng cái experiment này nó là gì và không phải gì:

n=1. Đây là một solve trace trên một lab nổi tiếng. Không đại diện cho generalization sang target mới.
PortSwigger labs có walkthrough public phổ biến trong training data — agent có thể đã "nhớ" pattern.
Penligent cảnh báo: agentic coding benchmarks không chứng minh model có thể discover & exploit vuln real-world một cách an toàn. Nên dùng làm reasoning layer trong hệ thống có static analysis + sandbox + human review.
Self-host V4 Pro cần ~865GB weights — không phải team nào cũng kham nổi. Phần lớn sẽ đi qua API.
V4 Pro vẫn trail GPT-5.4 / Gemini-3.1-Pro khoảng 3–6 tháng trên frontier reasoning benchmarks.

Pricing: $1.74 / 1M input tokens, $3.48 / 1M output tokens — vừa túi tiền cho long-context security agent runs.

Tiếp theo là gì

Trong cùng thread, Tur24Tur còn 2 experiments nữa: Android root detection bypass và advanced XSS, cũng cho Opus 4.7 review log. Đây là 1/3.

Câu hỏi mở: ai sẽ build harness chuẩn để chạy V4 Pro cross hàng trăm PortSwigger labs (không chỉ 1 lab) và public số liệu solve-rate? Đó mới là benchmark có giá trị về offensive-security agent.

Nguồn: Tweet gốc Tur24Tur, DeepSeek V4 Preview Release, Simon Willison — DeepSeek V4, Penligent, PortSwigger UNION attack lab.