- Một researcher trên X vừa công bố CLI pentest cắm xAI API key là chạy: Grok tự sinh payload XSS/SQLi/Open Redirect, bắn HTTP request vào target, rồi tự đọc response để xác định lỗ hổng.
- Kèm sẵn vulnerable Flask lab để test không dính luật.
TL;DR
Security researcher @ErickSky vừa share một CLI pentest mới, biến Grok thành "bộ não tấn công" thật sự chứ không phải chatbot đọc payload. Bạn cắm XAI_API_KEY, Grok sẽ sinh payload XSS, SQL Injection và Open Redirect, CLI bắn HTTP request vào target, rồi Grok tự đọc response để quyết định có dính lỗ hổng hay không — kèm bảng risk, giải thích chi tiết và gợi ý fix. UI dùng thư viện Rich, kèm luôn một Flask app vulnerable để test sandbox. Đây là minh hoạ rõ nhất cho làn sóng LLM-powered offensive security đang ngập GitHub 2025–2026.
What's new
Điểm khác biệt của tool này so với mấy con scanner AI "đọc payload template" là nó để LLM chủ động reason ở hai đầu:
- Đầu input: Grok sinh payload tuỳ context URL/param, không bó trong wordlist tĩnh như
XSStrikehaysqlmap. - Đầu output: response thô (HTML, header, redirect location) được gửi ngược về Grok để phán đoán có phải vulnerability signal thật không — tránh false positive kiểu "thấy
errortrong body là gào SQLi".
Phía UX, toàn bộ chạy trên terminal với Rich: progress bar lúc fuzz, bảng màu lúc xếp severity, panel giải thích từng finding. Kèm repo có sẵn một Flask server cố tình dính lỗi để user tập chạy mà không phạm luật.
Why it matters
Đây không phải "Grok trò chuyện về bảo mật" mà là Grok thực sự gửi request và ra quyết định. Mô hình LLM-in-the-loop cho offensive security có 3 hệ quả đáng suy nghĩ:
- Rào cản kỹ thuật tụt thẳng đứng. Trước đây viết XSS creative đòi hỏi kinh nghiệm; giờ LLM sinh được payload bypass filter bằng suy luận context.
- WAF / signature-based defense chịu áp lực. Payload sinh động, biến thiên mỗi request — rule tĩnh sẽ lỗi thời nhanh hơn.
- Ethics dịch chuyển. Cùng tool này có thể quét app của chính bạn hoặc của người khác — tác giả giải quyết bằng cách bundle sẵn Flask lab, nhưng trách nhiệm cuối vẫn ở người cầm key.
Technical facts
Tóm tắt kiến trúc theo mô tả trong tweet và pattern chung của các tool cùng lớp:
| Thành phần | Chi tiết |
|---|---|
| LLM backbone | Grok qua xAI API, env var chuẩn XAI_API_KEY |
| Payload classes | XSS (reflected/stored), SQL Injection (error / boolean / time-based), Open Redirect |
| HTTP client | Active scanning — gửi GET/POST thật, follow redirect, parse header + body |
| Analysis | Response thô đưa ngược cho Grok reason; output là risk table + AI explanation + remediation |
| Terminal UI | Thư viện Rich (Python) — progress bar, table màu, panel |
| Sandbox | Vulnerable Flask app kèm repo để test nội bộ |
Stack khớp mẫu: Python + xai-sdk + httpx/requests + rich. Rất gọn, chạy được trong một đêm cuối tuần.
Comparison
| Tool | AI provider | Payload LLM-sinh? | Lab đi kèm | Định hướng |
|---|---|---|---|---|
| @ErickSky's Grok CLI | Grok only | Có | Flask lab | Solo researcher, hobbyist |
| deep-eye | OpenAI, Claude, Grok, Ollama | Có | Không | Multi-LLM, 17+ attack vectors |
| pentest-ai | Multi-LLM qua MCP | Có | Không | Autonomous agent, 150+ tools |
| strix | Multi-LLM | Có | Không | Open-source AI hacker |
| sqlmap / XSStrike | Không AI | Không | Không | Rule-based industry standard |
CLI của ErickSky không cố thay thế sqlmap — nó nhắm khe khác: prototype nhanh, dễ học, payload sáng tạo, bùm xong có giải thích ngay. Đó là lý do bundle Flask lab đi kèm hợp lý với đối tượng mục tiêu.
Use cases
- Bug bounty recon nhanh: quét nông đa endpoint để Grok chỉ ra param nhạy cảm (
?redirect=,?next=,?id=), rồi researcher đào sâu bằng tool chuyên. - Learning lab: chạy CLI chống Flask app, đọc explanation để hiểu vì sao payload trigger — tốt cho người mới học offensive security.
- Developer self-audit: chạy vào staging của chính mình, lấy bảng risk + remediation trước khi ship — giá trị hơn nhiều so với linter.
- CTF warm-up: dùng làm bước đầu để tiết kiệm thời gian viết payload tay.
- Red-team agent pipeline: dễ wrap thành một "payload brain" cho agent lớn hơn xử lý recon/exploit chaining.
Limitations & pricing
- LLM vẫn hallucinate. Payload Grok sinh có thể trông hợp lý nhưng không trigger; human verify trước khi report là bắt buộc.
- Phạm vi hẹp. Mới có XSS, SQLi, Open Redirect. Không CSRF, SSRF, XXE, auth-bypass, RCE, hay logic bugs.
- Chi phí xAI API. Mỗi lần gen payload + analyze response là vài nghìn token. Dùng
grok-4reasoning tốt nhưng đắt;grok-code-fast-1rẻ hơn nhưng yếu hơn. - Rate limit. Theo plan xAI — quét target lớn dễ đụng trần, phải throttle.
- Pháp lý. Active scan vào hệ thống không có quyền = vi phạm CFAA (Mỹ), luật an ninh mạng (VN), GDPR context ở EU. Chỉ quét target có authorization viết tay.
- Không WAF bypass module riêng. Gặp Cloudflare/Akamai sẽ bị đập request trước khi Grok kịp reason.
What's next
Trend lớn hơn đã rõ: 2024–2026 là giai đoạn LLM-powered offensive security bùng nổ — deep-eye, pentest-ai, strix, Shannon, Zen-Ai-Pentest, và giờ thêm CLI của @ErickSky. Khi xAI mở API rẻ và ít content-filter hơn OpenAI, Grok trở thành lựa chọn ưa thích cho builder mảng offensive. Mặt tối: WormGPT variant đã được port sang Grok/Mixtral, và nhóm "Grokking" dùng Grok ngay trên X để phát tán malicious link. Công cụ trung lập — dao mổ hay dao đâm tuỳ tay cầm.
Hướng sắp tới của bản thân tool (suy đoán từ roadmap các project tương đồng): mở rộng sang SSRF/XXE, thêm prompt WAF bypass, authenticated scan (session cookie), xuất HTML/JSON report, tích hợp MCP để agent khác gọi được như một tool con.
Nguồn: @ErickSky (X), xAI docs, deep-eye, eSecurity Planet — Grokking.

