Skill tự review code đến khi sạch bug: vòng lặp Codex của steipete

TL;DR

Ngày 14/5/2026, Peter Steinberger (@steipete) - người sáng lập PSPDFKit và là một trong những developer sử dụng agentic workflow chuyên sâu nhất hiện nay - tweet rằng ông vừa viết xong một skill đơn giản nhưng cực kỳ hiệu quả: chạy codex /review trong vòng lặp cho đến khi không còn lỗi nào. Tweet nhận 1,292 likes và 67,6K lượt xem trong ngày đầu.

Caveat ông nhấn mạnh: skill này không thể sửa kiến trúc hệ thống. Developer vẫn phải làm vai trò master model cho mọi quyết định high-level.

Vấn đề: review thủ công là bottleneck

Trước khi có automation, workflow tiêu chuẩn là: Claude Code implement xong, mở terminal thứ hai, copy-paste plan và diff sang Codex, chờ review, relay feedback tay về lại Claude. Cứ mỗi task hoàn thành là lặp lại chu trình đó.

Vấn đề không phải là chất lượng review - mà là overhead quá lớn. Nhiều lúc developer bỏ qua bước review vì nó tốn thêm 10-15 phút. Kết quả là code ra production với những lỗi mà một reviewer độc lập hoàn toàn có thể bắt được.

Lý do chọn Codex làm reviewer chứ không phải Claude tự review chính mình: Codex có ~230k usable context token so với Claude Code 156k, đọc nhiều file hơn trước khi quyết định, và theo Steinberger - Codex "careful FAR more" trong khi Claude "too eager to just try something."

Ba mức độ tự động hóa

Cộng đồng đã hình thành ba cấp độ triển khai, tùy nhu cầu:

Level 1 - SKILL.md (cách steipete làm): một file Markdown duy nhất kích hoạt slash command /codex-review. Loop chạy tối đa 5 vòng, mỗi vòng Codex trả VERDICT: REVISE thì Claude sửa và chạy lại, cho đến VERDICT: APPROVED. Chi phí: thấp. Phù hợp: solo dev.
Level 2 - Plugin + Stop Hook: dùng Claude Code Stop Hook tự động kích hoạt Codex mỗi khi Claude kết thúc task. Plugin claude-review-loop của Hamel Husain spawn tới 4 sub-agent Codex song song: Diff Review, Holistic Review, Next.js Review, UX Review. Không cần nhớ gọi review thủ công.
Level 3 - Pipeline: tích hợp vào CI/CD và pull request, enforce standards cho cả team. GitHub Agent HQ (public preview, Feb 2026) là đại diện tiêu biểu - cho phép gán Copilot, Claude và Codex cùng một issue, yêu cầu Copilot Pro+ hoặc Enterprise.

Con số thực tế

Aseem Shrey - người publish SKILL.md Level 1 gốc vào ngày 20/2/2026 - báo cáo kết quả trên dự án thực:

14 lỗi phát hiện trong 3 vòng lặp
Bao gồm: missing authentication models, shell script quoting bugs, schema field inconsistencies (status vs column state drift), thiếu xử lý concurrency
Kết quả: specification đạt production quality với zero manual review

Còn plugin Level 2 của Hamel Husain: Stop Hook timeout cấu hình mặc định 30 giây (có thể tăng lên 900 giây), review kết quả được lưu vào reviews/review-<id>.md với timestamp và exit code đầy đủ.

Ngày 30/3/2026, OpenAI ra mắt plugin chính thức codex-plugin-cc, cài bằng /plugin marketplace add openai/codex-plugin-cc. Hai lệnh chính: /codex:review (read-only, không sửa code) và /codex:adversarial-review (steerable, dùng để pressure-test assumptions và failure modes trước khi ship).

Giới hạn quan trọng

Steinberger nói thẳng trong tweet: "It won't fix system architecture for ya." Đây là ranh giới rõ ràng nhất của toàn bộ approach này.

Ngoài ra còn vài caveat kỹ thuật cần biết:

Context bias trong loop: khi dùng cùng một session cho nhiều vòng review (Resume school), Codex có thể không re-raise lại những issue đã đánh giá là "minor" ở vòng trước. Kim Major đề xuất kết hợp - dùng resume session cho loop sửa lỗi, chạy fresh session một lần cuối để audit toàn bộ.
Stop Hook timing: hook có thể fire khi Claude đang pause để hỏi clarification - chưa thực sự "xong task". Nick Tune đề xuất cần có CodeReadyForReview hook chính xác hơn về mặt semantic.
Infinite loop risk: nếu không check flag stop_hook_active, hook có thể block → trigger review → block → trigger review liên tục. Cần guard trong hook script.
Security: claude-review-loop mặc định dùng --dangerously-bypass-approvals-and-sandbox. Chỉ dùng trong isolated environment hoặc CI/CD runner riêng.

Ai nên dùng ngay

Level 1 SKILL.md là điểm khởi đầu lý tưởng cho:

Solo developer / indie hacker muốn second opinion tự động mà không cần setup phức tạp
Những ai đang implement feature phức tạp (authentication, data model, concurrency) - review loop phát huy nhất ở đây, overkill với bug fix nhỏ
Developer đang dùng Codex CLI và muốn tích hợp ngay vào workflow hiện có

Small team nên xem Level 2 plugin để tránh việc quên review sau mỗi task. Enterprise cần team-wide governance thì Level 3/Agent HQ là con đường đúng.

Kết

Trend "Claude implement, Codex review" đang được cộng đồng validate rộng rãi - từ tweet của steipete đến plugin chính thức của OpenAI trong vòng chưa đầy 3 tháng. Triết lý đằng sau đơn giản: hai model từ hai provider khác nhau sẽ ít bị sycophancy bias hơn so với self-review.

Điều Steinberger nhắc đi nhắc lại - trong tweet lẫn blog của ông - là AI giỏi viết và sửa code, nhưng "writing good software is still hard." Architecture, system design, chọn dependency, thiết kế feature: đó vẫn là việc của người.

Setup Level 1 mất khoảng 5 phút. Xem SKILL.md gốc trên GitHub Gist, plugin Level 2 trên hamelsmu/claude-review-loop, và plugin chính thức tại openai/codex-plugin-cc. via @steipete, SmartScope