TL;DR

Ngày 4/4/2026, researcher Andy Gill (zsec.uk) công bố bài viết "Bullying LLMs into submission to find 0days at scale" - mô tả hệ thống săn lỗ hổng hoàn toàn tự động chạy 24/7, dùng Claude Code làm orchestrator và MCP làm lớp giao tiếp với hơn 300 công cụ bảo mật trên 5 VM. Đây không phải AI hỗ trợ pentester nữa - đây là AI thay thế phần lớn vòng lặp nghiên cứu.

Validation pipeline: Gate 0 đến Gate 3 - từ hallucinations đến Validated Finding

Vấn đề cũ: Pentester giỏi nhưng không ngủ được

Trong security research truyền thống, một researcher phải tự mình chạy từng tool, đọc output, pivot sang tool tiếp theo, ghi chú, triage. Quy trình này không thể scale - một người chỉ có thể xử lý một target trong một thời điểm, và phần lớn thời gian bị ăn bởi những tác vụ cơ học lặp đi lặp lại.

MCP (Model Context Protocol) thay đổi điều đó. Thay vì Claude Code chỉ có khả năng thực thi code đơn lẻ, MCP biến mỗi tool trong workflow thành một endpoint có thể gọi, kết hợp, và lặp - trong khi Claude tự quyết định logic.

Kiến trúc: 8 MCP server, 5 VM, 300+ công cụ

Hệ thống của Andy Gill có cấu trúc như sau:

  • 8 MCP server chạy trên 5 VM riêng biệt, mỗi server là một Python process độc lập

  • 300+ tool bảo mật được wrap thành MCP endpoint - từ fuzzer, debugger, disassembler đến PoC runner

  • RAG component chạy local với Ollama - Claude truy vấn toàn bộ knowledge base bảo mật ngay trong quá trình hunt

  • Bug bounty tracker: theo dõi 100+ chương trình bug bounty với ROI scoring theo từng vulnerability class

  • Mọi dữ liệu đều được index và đưa vào vòng lặp: crash logs, MSRC advisories, patch diffs, bounty outcomes

Claude Code đóng vai orchestrator - nó không chỉ chạy tool mà còn quyết định tool nào chạy tiếp, pivot như thế nào dựa trên kết quả, và tự tạo campaign mới khi cần.

Pipeline validation: Từ ảo giác đến lỗ hổng thật

Insight quan trọng nhất trong bài: mọi finding đều bắt đầu là ảo giác (hallucination). Thay vì cố loại bỏ hallucination, hệ thống quản lý nó bằng 4 validation gate:

Gate

Điều kiện

Fail -> đâu?

Gate 0

PoC tồn tại và compile thành công

Stays in hallucinations/

Gate 1

PoC reproduce crash trong clean VM snapshot

Stays in hallucinations/

Gate 2

Crash là exploitable (không phải null deref hay graceful exit)

Stays in hallucinations/

Gate 3

Bug trigger được với quyền standard user (không cần SYSTEM/admin)

Stays in hallucinations/

Finding nào vượt cả 4 gate mới được tool_finding_promote chuyển sang thư mục findings/. Nếu sau đó bị invalidate, nó bị demote về hallucinations/. Đây là cách biến LLM không đáng tin thành pipeline đáng tin.

Con số thực tế

Hệ thống này không phải nghiên cứu học thuật:

  • Claude Mythos (Anthropic, công bố 8/4/2026): tìm và validate 500+ lỗ hổng high-severity trong production open-source software, một số tồn tại hàng chục năm chưa bị phát hiện

  • Kali Linux + Claude MCP benchmark: 4.750 path được enumerate trong 25 giây; full assessment mất ~15 phút thay vì 2-3 giờ thủ công

  • pentest-ai-agents (0xSteph): 28 subagent chuyên biệt, đạt 100% (104/104) trên benchmark CTF published

  • MCP design flaw (OX Security): lỗ hổng kiến trúc ảnh hưởng 200.000 server, 150 triệu lượt download trên Python, TypeScript, Java, Rust

Rủi ro không thể bỏ qua

Song song với tiềm năng, có những cảnh báo nghiêm túc:

  • Prompt injection qua tool output: MCP server có thể bị hijack nếu target inject payload vào response, khiến Claude thực hiện hành động ngoài ý muốn

  • MCP STDIO design flaw: OX Security phát hiện lỗ hổng kiến trúc cho phép thực thi OS command tùy ý khi spawn MCP subprocess. Windsurf, Claude Code, Cursor, GitHub Copilot đều ảnh hưởng. Anthropic xem đây là "expected behavior", chưa có fix protocol-level

  • Chi phí API: chạy autonomous 24/7 với Anthropic API có thể tốn kém ở quy mô lớn

  • Không thay thế được: complex exploitation, social engineering, và authenticated scanning vẫn cần human judgment

Ai nên dùng ngay

  • Bug bounty hunters: chạy hunt qua đêm, sáng thức dậy với danh sách finding đã được triage và có PoC

  • Pentest firm: scale output của junior researcher - Claude lo recon và tool execution, human lo exploitation logic và report

  • Red team nội bộ: continuous scanning tài sản nội bộ với ROI-weighted prioritization theo vulnerability class

  • Security researcher cá nhân: Trail of Bits đã open-source skill files tại github.com/trailofbits/skills - điểm khởi đầu tốt

Tiếp theo

Wiz Research dự báo: trong 12-18 tháng tới, khả năng tương tự Claude Mythos sẽ xuất hiện trên các model open-source - nghĩa là autonomous vuln discovery sẽ không còn là đặc quyền của researcher có budget API lớn. Đây là thời điểm để hiểu workflow này trước khi nó trở thành baseline của ngành.

Via: blog.zsec.uk/bullyingllms, Wiz Blog - Claude Mythos, The Register - MCP design flaw.