TL;DR

Đúng 2 ngày sau khi DeepSeek phát hành V4 Pro (24/04/2026), researcher @Tur24Tur đã thả model này vào 4 thử thách bảo mật expert-level — 3 lab PortSwigger Web Security Academy và 1 Android app thật — và để nó tự xử lý từ đầu đến cuối. Kết quả: 412 tool calls, 4 hạng mục, không copy lời giải, tổng chi phí $6.84. Mỗi run được Claude Opus 4.7 review độc lập để xác nhận model không gian lận. Đây có thể là benchmark agentic độc lập đáng tin cậy nhất của V4 Pro tới giờ.

Chuyện gì vừa xảy ra

DeepSeek V4 Pro là MoE 1.6T tham số (49B active), context 1 triệu token, ra mắt với MIT license và giá rẻ giật mình: $1.74 / 1M input$3.48 / 1M output — Simon Willison gọi đây là "cheapest of the larger frontier models". Trên giấy, nó SOTA ở agentic coding mã nguồn mở. Câu hỏi mở: nó có thực sự xài được trong workflow autonomous đa bước, hay chỉ thắng benchmark?

@Tur24Tur trả lời câu này theo cách brutal nhất — đẩy nó vào 4 challenge khó, không có hint, không có template, để Claude Opus 4.7 (model frontier của Anthropic) giám sát từng run.

4 run, 4 hạng mục bảo mật

ChallengeTool callsThời gian
SQL Injection (PortSwigger)263 phút
Android Root Detection Bypass (real APK)10216 phút
Reflected XSS + AngularJS sandbox escape + CSP bypass14271 phút
Web Cache Deception14235 phút
Tổng412~125 phút

Riêng case Android không phải lab giả lập — đó là một app Android thật cần bypass root detection. Còn AngularJS sandbox escape + CSP bypass thuộc nhóm bài expert của PortSwigger, đa số researcher con người mất vài giờ đến vài ngày để giải tay.

Có 2 task khác bị fail giữa chừng do bug trong agent harness (không phải lỗi model). Sau khi tác giả fix bug và chạy lại, cả 2 đều pass.

Tại sao đáng quan tâm

Ba điểm:

  • Tool calling thật sự work ở scale cao. 142 tool calls trong một single autonomous run cho XSS sandbox escape là con số rất khó với hầu hết model open-weight. Phần lớn agent stack open-source vỡ ngữ cảnh hoặc lặp loop trước khi đến mốc 50 calls.
  • Chi phí gần như không đáng kể. $6.84 cho 6 expert security task (gồm 2 retry) = chưa tới $1.15 mỗi task. Cùng workload chạy trên Claude Opus 4.7 hoặc GPT-5.4 sẽ tốn cao hơn nhiều lần.
  • Cross-model peer review. Việc dùng Claude Opus 4.7 review từng run của V4 Pro là pattern hay: bạn dùng model frontier (đắt) để verify, model rẻ để execute. Đây là kiến trúc 2-tier hiệu quả cho autonomous workflow nói chung, không chỉ security.

Đặt vào bối cảnh kỹ thuật

V4 Pro không chỉ rẻ — nó cũng nhanh và nhẹ:

  • SWE-bench Verified: 80.6% — chênh 0.2 điểm so với Claude Opus 4.6
  • MMLU 88.4%, MMLU-Pro ngang GPT-5.4
  • Attention mới: token-wise compression + DSA (DeepSeek Sparse Attention) — chỉ 27% FLOPs/token10% KV cache size so với V3.2
  • Tích hợp sẵn Claude Code, OpenCode, OpenClaw — bạn không cần build agent harness từ đầu

Điểm yếu: HLE chỉ 37.7%, SimpleQA-Verified 57.9% (Gemini-3.1-Pro 75.6%) — V4 Pro vẫn hổng kiến thức factual so với frontier. Nhưng với agentic workflow, model có thể search/tool ra fact thay vì nhớ — và đây chính là lý do tool calling tốt quan trọng hơn world knowledge.

Giới hạn cần biết

Vài caveat trước khi bạn copy pattern này:

  • 4 run không phải distribution lớn. Một thread Twitter không phải peer-reviewed paper. Sẽ cần repro độc lập trên nhiều dạng challenge khác.
  • Bug agent harness — 2/6 task fail vì bug code, không phải lỗi model. Trong production, mỗi tỉ lệ failure 33% kiểu này là red flag dù sau đó pass khi retry.
  • Authorization. Như Penligent nhấn mạnh: vulnerability discovery autonomous chỉ nên chạy trên target được phép — code của bạn, lab giáo dục, hoặc pentest có hợp đồng. Không phải trên hệ thống public không thuộc bạn.
  • "Model proposes, tools test." Trust model output mà không verify bằng tool/runtime check là cách dễ nhất để ăn false positive trong security workflow.

Sắp tới là gì

Tác giả thread nói "more experiments coming" — kỳ vọng các đợt thử nghiệm trên CTF, kernel exploit, và pentest target lớn hơn. Phần thú vị nhất sẽ là khi cộng đồng repro được chi phí $6.84 đó trên dataset rộng hơn — nếu đúng, đây là tín hiệu rằng autonomous security agent open-source đã chạm ngưỡng practically affordable.

Với indie developer và team nhỏ, takeaway thực dụng nhất là: bộ đôi rẻ-+-frontier-reviewer (V4 Pro execute, Opus 4.7 verify) là kiến trúc đáng thử cho mọi autonomous pipeline — không chỉ security, mà cả code review, content QA, hay data validation.

Nguồn: @Tur24Tur trên X, DeepSeek API Docs, Simon Willison, Penligent.