- Codex v0.124.0 đưa Auto-review lên trạng thái stable — agent reviewer thứ hai tự đánh giá rủi ro và duyệt các bước nhạy cảm (chạy test, build, shell, network) thay con người, mở đường cho các task dài hàng giờ và nhiều agent chạy song song.
TL;DR
OpenAI vừa đưa Auto-review lên trạng thái stable trong Codex v0.124.0 (23/04/2026). Thay vì dừng lại hỏi con người trước mỗi hành động nhạy cảm, Codex giờ dùng một agent reviewer độc lập — đọc request, gán risk level, rồi tự approved / denied / stopped / timed out. Kết quả: developer ngồi supervise ở tầng cao, agent chính chạy liên tục 7+ tiếng mà không gãy luồng vì mỗi câu hỏi "cho phép chạy npm test?".
Auto-review là gì
Trong Codex, mỗi bước agent định chạy (shell command, ghi file, gọi MCP tool, apply_patch, network call) đều đi qua một request_permissions. Trước đây bước này dừng và đợi bạn bấm Allow / Deny. Từ v0.124.0, Codex route các prompt đủ điều kiện qua một reviewer agent thứ hai — một mô hình độc lập, có context về task gốc, job là đánh giá rủi ro và greenlight cho executor agent chạy tiếp.
Reviewer trả về 1 trong 4 trạng thái: approved, denied, stopped, timed out. Timeout giờ được tách khỏi denial — bạn biết chính xác là chính sách từ chối hay reviewer không kịp quyết. UI Codex app hiển thị từng item review kèm risk level để bạn audit sau.
Vì sao điều này quan trọng
Vấn đề cũ của agentic coding: càng dài càng hỏi nhiều. Một task 500 bước có thể ngắt 50–100 lần để xin phép. Mỗi lần ngắt = context switch của developer, và nhiều dev chỉ bấm Always Allow cho xong — bypass luôn tầng bảo vệ.
Auto-review giải bài toán bằng cách để AI trả tiền cho sự chú ý của AI: một agent rẻ, chuyên về đánh giá rủi ro, xử lý 95% các approval dễ; human chỉ nhảy vào khi reviewer gắn cờ risk cao hoặc bản thân đã cấu hình override. Nó là lớp đệm giữa "hỏi từng bước" (mệt, tốn thời gian) và "Always Allow" (mất an toàn).
Chi tiết kỹ thuật
- Kiến trúc two-agent: executor + reviewer độc lập, chạy song song.
- Scope bao phủ: shell command, file write, network, MCP tool,
apply_patch. Mọirequest_permissionsđều có thể route qua reviewer (tích hợp từ v0.123.0, PR #18393). - Cấu hình: qua guardian policy và
config.toml. Hooks giờ cũng stable và cấu hình inline được. - Strict review mode: thêm tuỳ chọn "approve with strict review" (PR #19050) cho các luồng enterprise cần chặt.
- 4 response mode giữ nguyên: Never allow, Ask each time, Only on failure, Always allow — bạn có thể cho reviewer chỉ can thiệp ở bước fail chẳng hạn.
- Permission-mode persist: cấu hình
/permissionsgiờ không drift qua side conversation. - Sandbox: agents bị giới hạn trong project directory bằng sandboxing system-level open-source, cấu hình được theo team/project.
- Isolation: mỗi agent chạy trong Git worktree riêng — chạy N agent song song không xung đột merge.
- Chạy trên GPT-5.3-Codex (chuyên code) và GPT-5.5 (frontier). Demo GPT-5-Codex chạy 7+ tiếng liên tục trên một task lớn với 7M tokens.
So với trước đây và với Claude Code
| Tiêu chí | Codex trước Auto-review | Codex + Auto-review | Claude Code (Opus 4.6) |
|---|---|---|---|
| Triết lý | Hỏi-từng-bước | Reviewer agent lọc, human supervise | Autonomous planner |
| Context switch của dev | Cao | Thấp | Rất thấp |
| Rủi ro "Always Allow" | Cao | Thấp (có audit trail) | N/A (model tự quyết) |
| Terminal-Bench | 77.3% | 77.3% | 65.4% |
| Context window | 400K | 400K | 1M |
| Token efficiency | 3–5× rẻ hơn Claude | 3–5× rẻ hơn Claude | Cao hơn |
Auto-review là câu trả lời của OpenAI cho sức hấp dẫn "let it run" của Claude Code — giữ mô hình interactive collaborator nhưng đẩy phần approval fatigue sang một reviewer chuyên dụng.
Ai được lợi nhất
- Long-horizon tasks: refactor lớn, migration, build feature end-to-end. Không còn bị gãy mạch bởi 50 lần xin phép.
- Multi-agent orchestration: dev điều phối N agent trên N worktree; reviewer giữ mỗi agent trong guardrails mà không cần human attention 1:1.
- Codex Automations (task nền, lên lịch): không có ai ngồi xem thì reviewer agent là lớp safety duy nhất trước sandbox.
- Enterprise team: audit trail risk-level cho compliance, route kết quả về review queue tập trung, policy tune theo repo.
- Skills + hooks pipeline: CI-style coding runs cần tự động duyệt
apply_patch, shell, network nhưng vẫn có log.
Hạn chế & giá
- Config-gated: guardian policy phải được setup; không bật mặc định cho mọi risk threshold — enterprise cần tune.
- Reviewer vẫn là AI agent, không phải policy engine deterministic. Mis-classification xảy ra được — human override vẫn là lớp cuối cho repo nhạy cảm.
- Timeout là failure mode mới: build / test dài hơn reviewer window có thể kẹt "timed out".
- API GPT-5.3-Codex chưa general availability.
- Giá Codex app giữ nguyên: Plus $20/tháng (30–150 messages + cloud task giới hạn), Pro $200/tháng (300–1,500 messages + cloud task rộng). Auto-review không có giá riêng — đi kèm tier Codex.
Tiếp theo
Auto-review stable là bước đầu. Lộ trình rõ ràng: tích hợp sâu hơn với Codex Security (AI-powered vulnerability detection), mở rộng Skills ecosystem, và đưa API GPT-5.3-Codex ra public. Dự đoán: reviewer agent sẽ thành default oversight layer cho mọi autonomous Codex run — CI bot, Automations, multi-agent swarm — đẩy developer dần vào vai "supervisor của supervisor".
Câu hỏi lớn hơn: khi reviewer cũng là LLM, ai review reviewer? Đó là vấn đề OpenAI (và cả ngành) còn phải giải trong các phiên bản tới.
Nguồn: Codex Changelog, GitHub Releases, OpenAI Codex, Wes Roth.