AI OSINT: Bộ công cụ recon phơi bày 175.000 server AI đang hở cửa

TL;DR

7WaySecurity vừa phát hành ai_osint — bộ sưu tập được chăm sóc gồm Google dorks, GitHub dorks, Shodan & Censys queries, Sigma detection rules để recon hạ tầng AI bị phơi bày công khai. Các con số gắn với repo: 175.000+ Ollama server exposed, 370.000+ cuộc trò chuyện Grok bị Google index, leak credential AI tăng 81% so với năm trước. Công cụ dành cho Red Team, bug bounty và AI security research — yêu cầu authorization hợp pháp trước khi dùng.

Có gì mới

ai_osint không phải scanner tự động mà là một knowledge base dùng để tra cứu. Repo gom 12 nhóm tài nguyên chính:

Google Dorks — tìm shared conversations của ChatGPT, Grok, Perplexity, Claude; dashboard MLflow, Jupyter, Qdrant lộ công khai; file credential bị commit.
GitHub Dorks — phát hiện API key của 20+ provider AI, leak config MCP, system prompt, training data.
Shodan & Censys queries — phủ port chuẩn và non-standard của Ollama (11434), vLLM (8000), LM Studio, Gradio (7860), MLflow (5000), Qdrant (6333), OpenClaw (18789).
Vector DB recon — enumeration endpoint cho Qdrant, Weaviate, ChromaDB, Milvus.
MCP & AI Agent exposure — khai thác lỗ hổng Model Context Protocol, timeline sự cố lớn.
API key regex — pattern cho OpenAI, Anthropic, Gemini, DeepSeek và hơn 10 provider khác.
Threat intelligence — hồ sơ chiến dịch Operation Bizarre Bazaar, supply-chain breach.
Sigma rules — 7 rule detect truy cập trái phép và hành vi bất thường lên hạ tầng AI nội bộ.

Vì sao đáng chú ý

Shadow AI đang lan nhanh hơn khả năng kiểm soát. Nhiều nhóm dev dựng Ollama hoặc vLLM trên VPS nội bộ, mở port ra Internet "để test", rồi quên luôn. Những instance đó đa phần không có xác thực mặc định — ai có URL là dùng được model, history và trong nhiều trường hợp là cả tool-calling API.

Thực trạng này tạo ra một attack surface hoàn toàn mới: GPU compute free cho attacker mine/chạy workload, data leakage qua chat history, prompt injection, và khai thác tool-calling để xoay vòng vào hạ tầng sâu hơn. ai_osint là tài liệu đầu tiên tổng hợp đủ dorks/queries/rules ở một chỗ cho cả Red Team lẫn Blue Team.

Số liệu chính

Chỉ số	Giá trị	Nguồn
Ollama host phơi bày (130 quốc gia)	175.000+	SentinelLABS × Censys, 01/2026
Ollama instance mới phát hiện (Shodan, 04/2026)	25.000+	Shodan
Host advertise tool-calling API	48%+	SentinelLABS
Attack session lên Ollama (10/2025 – 01/2026)	91.403	Operation Bizarre Bazaar
Grok chat bị Google index	370.000+	Forbes / MediaPost
Secret leak trên public GitHub 2025	29 triệu (+34% YoY)	GitGuardian 2026
AI-service secret leak 2025	1,2 triệu (+81% YoY)	GitGuardian 2026
Credential 2022 vẫn còn valid 2026	64%	GitGuardian 2026

Đáng chú ý, commit có co-author là Claude Code leak secret ở tốc độ gấp đôi baseline, và repo dùng AI coding tool có xác suất chứa secret cao hơn 40% (Blott 2025). Tức là tốc độ AI-assisted coding đang âm thầm đẩy exposure lên cao hơn nữa.

So với công cụ cũ

Các recon framework truyền thống như Shodan CLI, theHarvester, reconspider không có query AI-specific. ai_osint không thay thế chúng — nó bổ sung một lớp tri thức chuyên biệt về AI stack hiện đại: Ollama, vLLM, MCP, vector DB. Điểm khác biệt lớn nhất là repo đi kèm threat intel và Sigma detection rules, cho phép Blue Team dùng ngược lại để phát hiện sớm nỗ lực tấn công, chứ không chỉ là vũ khí Red Team.

Ai nên dùng

Red Team & Bug Bounty: map nhanh AI footprint trong scope, xác định endpoint không auth, nộp report nhận bounty.
Blue Team / SOC: import 7 Sigma rule vào SIEM để monitor Ollama/vLLM/agent gateway nội bộ.
OSINT & AI security research: đo tốc độ lan shadow AI trong doanh nghiệp, nghiên cứu TTP của attacker (ví dụ pipeline resale trong Operation Bizarre Bazaar).
Enterprise security: tự audit — có Ollama nào của team mình đang hở port 11434 trên Internet không?
Compliance / risk: quantify rủi ro credential leak trong repo nội bộ và CI pipeline.

Giới hạn & rủi ro

Repo là dual-use: cùng một query tìm exposure cho defender có thể bị weaponize. Do đó tác giả nêu rõ yêu cầu authorization trước khi test, tuân thủ CFAA, GDPR và quy định disclosure có trách nhiệm. Không có exploit code, không tự động khai thác — phạm vi dừng ở detection và enumeration.

Về mặt kỹ thuật, ai_osint không phải scanner; bạn vẫn phải chạy query thủ công qua Shodan/Censys/Google, rồi tự verify. License MIT cho phần code, CC BY-SA 4.0 cho dữ liệu và tài liệu.

Kế hoạch tiếp theo

Repo được 7WaySecurity bảo trì chủ động (cập nhật gần nhất 04/2026). Nhóm cũng duy trì cloud_osint cho recon AWS/Azure/GCP/Oracle. Cộng đồng được khuyến khích PR thêm dork và Sigma rule mới.

Ở tầm ngành, GitGuardian dự báo tốc độ leak credential AI-service còn trên 50% YoY suốt 2026 khi agent framework tiếp tục lan rộng. Đồng nghĩa: những dorks trong ai_osint sẽ còn sinh thêm "mỏ vàng" cho cả attacker lẫn defender trong ít nhất 12 tháng tới.

Via: GitHub 7WaySecurity/ai_osint, The Hacker News, Censys, GitGuardian, TheTechPortal.