/ultrareview trong Claude Code: đội agent săn bug trên cloud trước khi merge

TL;DR

/ultrareview là slash command mới trong Claude Code (research preview, ship ngày 16/4/2026 cùng Opus 4.7). Thay vì scan diff một lượt như /review local, nó dựng một fleet 5–20 sub-agent trên cloud sandbox của Anthropic, mỗi agent đi theo một đường thực thi khác nhau, rồi một lớp verify riêng reproduce lại từng bug candidate trước khi đưa vào báo cáo. Kết quả: dưới 1% finding bị engineer mark là sai. Pro và Max có 3 lượt miễn phí, hết hạn 5/5/2026, sau đó tính theo extra usage $5–$25 mỗi lần.

Điểm mới so với /review

Claude Code đã có /review từ tháng 3/2026 — dispatch nhiều agent scan diff ngay trong session local. Vấn đề cố hữu của mọi tool review tự động: tìm bug thì giỏi, nhưng không verify. Sau vài lần bạn click vào finding rồi phát hiện đó là false positive, bạn bắt đầu ignore tool. Con người là thế.

/ultrareview giải quyết đúng cái đó bằng cách tách Find và Verify thành hai tầng agent độc lập: tầng Find cố tình sensitive (bắt càng nhiều càng tốt), tầng Verify cố tình specific (chỉ confirm cái nào chạy ra đúng bug). Cộng thêm việc review chạy hoàn toàn remote trên hạ tầng cloud của Anthropic, terminal local không bị chiếm, bạn có thể đóng Claude Code và quay lại sau — task vẫn chạy.

Vì sao đáng chú ý

Anthropic chạy hệ thống này nội bộ gần như trên mọi PR. Kết quả: tỉ lệ PR nhận substantive review comment nhảy từ 16% lên 54%. PR lớn hơn 1.000 dòng: 84% có finding, trung bình 7,5 issue/PR. Và quan trọng nhất, engineer chỉ mark dưới 1% finding là sai — con số cực khó đạt với AI review.

Một ví dụ thật: một one-liner nhìn như routine approval, Code Review flag critical vì nó sẽ làm vỡ authentication của service production. Engineer sửa trước merge, thừa nhận tự review không bắt nổi. Ở một case khác trong refactor ZFS encryption của TrueNAS, hệ thống phát hiện một type mismatch có sẵn trong code xung quanh đang âm thầm xóa encryption key cache mỗi lần sync — bug latent không ai đi tìm nhưng Code Review dò ra.

Kiến trúc 4 stage

Toàn bộ pipeline chạy trên cloud, không đụng resource local:

Setup: provision fleet — default 5 sub-agent, tối đa 20 (Enterprise). Mỗi agent có context window riêng và "persona" tập trung vào một concern (billing, security, data integrity...).
Find: các agent đi qua codebase theo các thứ tự và góc nhìn khác nhau. Cùng một file, mỗi agent đọc theo một call path riêng — race condition chỉ lộ khi đọc theo đúng sequence nên multi-angle bắt được thứ single-pass miss.
Verify: một nhóm agent khác nhận từng bug candidate kèm full context (PR title, description, code liên quan) và xác nhận xem có thật hay không. Anthropic dùng Opus-class cho logic bug, Sonnet-class cho style và CLAUDE.md violation.
Dedup: merge finding trùng. Khi 5 agent cùng tìm ra cái null pointer từ 2 đầu caller/callee, dedup ghép thành một finding có multi-angle context, dễ root-cause hơn.

Test thực tế trên một PR voice-calling 11.000 dòng (đụng auth flow + WebRTC + state management): Find stage ra 64 candidate bug, Verify lọc xuống còn một subset đáng fix, tổng pipeline mất 17 phút. Compare với /review 3–4 phút nhưng không có tầng verify.

/review vs /ultrareview

Tiêu chí	/review	/ultrareview
Chạy ở đâu	Local, trong session	Cloud sandbox remote
Depth	Single pass	Multi-agent fleet + independent verification
Thời gian	Giây đến vài phút	5–20 phút
Chi phí	Tính vào usage thường	3 lượt free, sau đó $5–$25 extra usage
Phù hợp với	Inner loop, feedback nhanh khi đang code	Merge gate cho thay đổi lớn

Khi nào nên chạy

3 lượt free trên Pro/Max không refresh hàng tháng và hết hạn 5/5/2026. Đừng đốt vào PR tầm thường. Đúng chỗ để xài:

Refactor đụng concurrency, auth, data handling.
Database migration, schema change.
Payment flow, security policy update, API versioning.
Long-running feature branch, PR vài nghìn dòng.
Any diff mà một production bug sẽ tốn nhiều hơn 15 phút review.

Đúng tinh thần framework tier: thay đổi tầm thường chạy /review, thay đổi critical chạy /ultrareview với fleet size lớn nhất bạn có quyền.

Giới hạn & pricing

Không phù hợp cho iteration loop. 17 phút là fine khi kiểm lần cuối, không fine khi bạn đang push 5 commit/giờ. Ultra Review là dao mổ, không phải búa.

Không thay được architectural review. Nó giỏi bắt logic error, null pointer, edge case, security vuln. Nó không trả lời được "nên dùng WebRTC hay WebSocket?" — đó vẫn là judgment call của human reviewer.

Không auto-approve PR. Strictly advisory.

Chi phí dễ leo thang. Team push 10 PR/ngày × $15–$25 = $150–$250/ngày, ~$3k–$5k/tháng chỉ cho code review. Phải có policy: không chạy blanket, chỉ chạy trên thay đổi có blast radius đáng kể.

Ràng buộc môi trường: cần Claude Code v2.1.86+ và auth Claude.ai (API key đơn không chạy). KHÔNG available trên Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hay org có Zero Data Retention. Repo quá to không bundle được thì phải push branch, mở draft PR, rồi /ultrareview <PR-number>.

Plan	Free runs	Sau đó
Pro	3 lượt (hết hạn 5/5/2026)	Extra usage $5–$25/lần
Max	3 lượt (hết hạn 5/5/2026)	Extra usage $5–$25/lần
Team & Enterprise	Không	Extra usage $5–$25/lần

What's next

Rollout theo dạng staged — eligibility có thể thay đổi mà không cần update client, và pricing/availability vẫn có thể shift vì đây là research preview. Với team đang đánh giá: dùng 3 lượt free trên PR thật sự đáng chú ý (refactor critical, migration, feature branch lớn) trước 5/5 để tự đo ROI. Nếu 1 bug production/tháng bị Ultra Review bắt trước merge đáng giá hơn chi phí review, quyết định tiếp theo là dễ.

Cho developer cá nhân: coi /review là linter, /ultrareview là paranoid senior. Xài đúng tool cho đúng stage.

Nguồn: Claude Code Docs, claude.com/blog/code-review, InfoQ, mejba.me test run.