TL;DR

Ngày 29/4/2026, nhà nghiên cứu bảo mật Niels Provos - tác giả của nhiều công cụ bảo mật hàng đầu và là người đã commit chính lỗi OpenBSD TCP SACK năm 1998 - công bố một kết luận gây chấn động: tìm zero-day không phải đặc quyền của model frontier. Đó là bài toán orchestration.

Dùng framework open-source IronCurtain của mình, Provos dùng Claude Opus 4.6, Sonnet 4.6 và Z.AI GLM 5.1 - tất cả đều là model thương mại có thể truy cập tự do - để tái hiện phát hiện từ Anthropic Mythos Preview (model bị giới hạn, chỉ dành cho đối tác đặc biệt) và tự mình tìm thêm zero-day mới trong các thư viện nền tảng.

Câu chuyện trước đó

Tháng 4/2026, Anthropic công bố Claude Mythos Preview - model AI đầu tiên có khả năng không chỉ tìm mà còn tự xây dựng working exploit cho zero-day trên mọi hệ điều hành và trình duyệt chính. Đây là một bước nhảy vọt thực sự: trong benchmark Firefox 147, Mythos Preview tạo ra 181 working shell exploit thành công, so với chỉ 2 lần của Opus 4.6 trong cùng số lần thử.

Anthropic giới hạn Mythos Preview nghiêm ngặt - chỉ cấp quyền cho một nhóm nhỏ đối tác hạ tầng quan trọng qua chương trình Project Glasswing. Câu chuyện khi đó là: tìm zero-day đòi hỏi model frontier đặc biệt, không phải model phổ thông.

Provos không đồng ý với câu chuyện đó.

IronCurtain hoạt động thế nào

IronCurtain là research prototype của Provos, thiết kế để chạy các agentic workflow bảo mật có cấu trúc. Framework dùng finite-state machine (FSM) định nghĩa bằng YAML thuần - mỗi bước trong quy trình điều tra là một trạng thái có thể lặp và kiểm tra.

Điểm cốt lõi là Orchestrator agent - không đọc code nguồn trực tiếp mà điều phối các agent chuyên biệt khác thông qua một append-only execution journal. Journal này cho phép mỗi agent bắt đầu với context window mới, tải lại trạng thái từ disk, và tiếp tục đúng chỗ agent trước dừng lại. Không mất context. Không loop vô nghĩa.

Quy trình xây dựng proof-of-concept có ba tầng:

  • Tầng 1: Single-function isolation harness - test nhanh, chi phí thấp
  • Tầng 2: Multi-component harness - khi cần context rộng hơn
  • Tầng 3: Full end-to-end validation trong VM - chỉ khi cần xác nhận cuối cùng

Workflow tự động leo lên tầng phù hợp dựa trên những gì cần chứng minh - không lãng phí compute vào VM khi một harness đơn giản là đủ.

Những con số thực tế

ModelChi phí/investigationToken/runKết quả
Claude Opus 4.6~$150~10M tokensTìm và validate zero-day, bị AUP chặn exploit generation
Claude Sonnet 4.6~$30~10M tokensTương tự, chi phí thấp hơn
Z.AI GLM 5.1~$30 tương đương~27M tokensTự tìm bug 18 năm tuổi hoàn toàn độc lập, không AUP
Mythos Preview~$20,000/1,000 scaffold runsN/A181 working exploits trong Firefox 147 benchmark

Hai phát hiện đáng chú ý nhất từ IronCurtain:

  • OpenBSD TCP SACK (1998) - lỗi Provos chính tay commit 27 năm trước, đã được Anthropic Red Team dùng Mythos Preview để phát hiện. Provos tái hiện y chang với Opus 4.6 qua IronCurtain. Trigger cụ thể: chênh lệch đúng 2 sequence number trong 4.3 tỷ giá trị có thể, ngay trên ranh giới 32-bit integer sign.
  • Integer truncation bug 18 năm tuổi - GLM 5.1 tự tìm trong một thư viện nền tảng khác, không cần con người can thiệp. Framework và workflow y hệt, chỉ thay model bằng LiteLLM gateway.

Ai nên quan tâm ngay

Ba nhóm hưởng lợi trực tiếp:

Security team thiếu nguồn lực: Audit codebase quy mô vừa giờ tốn $30-$150 một lần chạy. Trước đây đây là công việc của red team chuyên nghiệp tính theo ngày-công.

OSS maintainer: Phần lớn dự án open-source chạy bởi volunteer không có dedicated security resource. Anthropic đang báo cáo bug và đóng góp patch qua Project Glasswing. IronCurtain mở ra khả năng tương tự cho bất kỳ ai.

Defender cần bypass AUP: Khi Provos cần xác nhận severity của exploit, model thương mại từ chối sau bước thứ 2 của kế hoạch 7 bước. GLM 5.1 chạy local không có giới hạn đó. Kẻ tấn công đã dùng model uncensored từ trước - đây là cách equalize lại.

Con dao hai lưỡi

Provos thừa nhận thẳng: orchestration cuts both ways. Kẻ tấn công có nguồn lực đang dùng workflow tương tự, không bị AUP cản, không bị rate limit, không cần xin phép truy cập model frontier. Sự bất cân xứng hiện tại đang nghiêng về phía họ.

Lịch sử bảo mật đã quen với điều này. Metasploit, nmap, Burp Suite, AFL - mọi công cụ phòng thủ trong 25 năm qua đều đối mặt cùng cuộc tranh luận. Câu trả lời lịch sử luôn là đặt công cụ vào tay defender. Với model local, trách nhiệm nằm trực tiếp ở researcher - giống như tất cả những công cụ trên.

IronCurtain tồn tại để thu hẹp khoảng cách đó.

Tiếp theo là gì

Provos kêu gọi security engineer review framework, đóng góp vào orchestration scaffolding, đặc biệt là cải thiện onboarding (hiện vẫn đang được polish). Self-hosting trên commodity hardware vẫn là mục tiêu - Qwen 3.5 distill chưa đủ khả năng chạy workflow, GLM 5.1 vẫn cần hosted GPU.

Bức tranh lớn hơn: thời gian phát hiện zero-day đang co lại mạnh. 90-day disclosure window - chuẩn của ngành từ thời con người nghiên cứu bằng tay - sẽ không còn phù hợp khi AI có thể tìm bug nhanh hơn team triage có thể xử lý. Ngành bảo mật cần workflow mới, chu kỳ patch ngắn hơn, và automated incident response pipeline.

Nguồn: provos.org, red.anthropic.com, Help Net Security.