- Anthropic vừa ship /ultrareview — slash command gọi một đội agent chuyên biệt lên cloud sandbox, review PR từ nhiều góc (bug, edge case, security), rồi chạy một lớp agent riêng để verify từng phát hiện trước khi báo về.
- Kết quả: <1% false positive, nhưng tốn 5–20 phút và $5–25 mỗi lần chạy.
TL;DR
/ultrareview là slash command mới trong Claude Code, bắn một đội agent song song lên cloud sandbox của Anthropic để review branch hoặc PR GitHub. Điểm khác biệt lớn: mỗi bug được một nhóm agent thứ hai reproduce và verify độc lập trước khi báo về — giúp hạ false positive xuống dưới 1%. Đánh đổi: 5–20 phút và $5–25 mỗi review. Pro/Max có 3 lượt free (hết hạn 5/5/2026), Team/Enterprise trả extra usage từ đầu.
Có gì mới
Ngày 9/3/2026, Anthropic ra mắt Code Review cho Team và Enterprise ở dạng research preview. Đến 16/4/2026, khi Claude Opus 4.7 đổ bộ, slash command /ultrareview chính thức mở cho Pro/Max — trước đó nó đã bị lộ qua vụ source-map leak ngày 31/3 của package @anthropic-ai/claude-code v2.1.88.
Cơ chế tóm tắt trong một câu: bundle repo → upload cloud sandbox → dispatch fleet agent → mỗi agent review từ một góc → verify độc lập từng bug → dedup & rank → trả notification. Bạn chạy /ultrareview không tham số để review branch hiện tại so với default branch (kể cả code chưa push), hoặc /ultrareview 1234 để sandbox clone PR #1234 từ GitHub.
Yêu cầu: Claude Code v2.1.86+, đăng nhập bằng tài khoản Claude.ai (API key không đủ), và bật extra usage nếu muốn chạy trả phí.
Vì sao nó quan trọng
AI coding tools đang đẩy số PR tăng vọt, và bottleneck dịch từ viết sang review. Cat Wu — head of product của Claude Code — nói thẳng: "chỉ cần một kỹ sư, một prompt là ra được một PR trông hợp lý, nhưng người review phải mất hàng giờ để verify các edge case."
Ba con số đáng chú ý từ dữ liệu nội bộ Anthropic:
- Tỉ lệ PR có review comment chất lượng nhảy từ 16% lên 54% sau khi áp Code Review.
- PR >1.000 dòng: 84% ra findings, trung bình 7.5 issues.
- Engineer đánh dấu dưới 1% findings là sai — nhờ lớp verify riêng.
Các con số kỹ thuật
| Hạng mục | Giá trị |
|---|---|
| Fleet mặc định | 5 sub-agent (hỗ trợ tới 20) |
| Thời gian trung bình | 5–20 phút (scale theo PR) |
| Cost mỗi run | $5–25 (docs: $5–20, báo chí: $15–25 avg) |
| False positive rate | <1% |
| Test thực tế 11k dòng | 17 phút, 64 candidate → subset confirmed |
| PR <50 dòng | 31% ra findings, avg 0.5 issues |
| PR >1.000 dòng | 84% ra findings, avg 7.5 issues |
| Model routing | Opus-class cho logic/verify, Sonnet-class cho style/CLAUDE.md |
Pipeline 4 giai đoạn bên trong: Setup (provision cloud + spawn fleet) → Find (agent song song scan diff, mỗi agent 1 góc) → Verify (agent khác reproduce từng bug — đây là "secret weapon", Find tối ưu để nhạy, Verify tối ưu để đúng) → Dedup (gộp bug trùng, rank theo severity đỏ/vàng/tím).
So với /review và đối thủ
| Dimension | /review | /ultrareview |
|---|---|---|
| Chạy ở đâu | Local, trong session | Cloud sandbox |
| Agent | Single-pass | Fleet 5–20 song song |
| Verify | Không — user tự lọc | Có, <1% false positive |
| Thời gian | Vài giây đến vài phút | 5–20 phút |
| Cost | Tính vào plan usage | Extra usage ($5–25) |
| Ăn context window | Có | Không |
| Hợp cho | Inner loop iteration | Pre-merge gate cho change quan trọng |
So với GitHub Copilot code review và CodeRabbit, điểm khác biệt là multi-agent architecture + verification stage — ưu tiên sâu và chậm thay vì nhẹ và nhanh. Agent cũng flexibly traverse toàn bộ codebase chứ không chỉ diff, để bắt các interaction cross-file.
So với Claude Code GitHub Action (open source, vẫn hoạt động): Anthropic gọi thẳng /ultrareview là "more thorough and more expensive option." Và so với Claude Code Security (sweep toàn codebase liên tục cho security bug), Code Review focus vào logic errors — phát hiện security nhưng không sâu bằng.
Khi nào nên dùng
Nguyên tắc: nếu chi phí của một bug bị miss lớn hơn chi phí review, hãy chạy. Các tình huống đáng tiền:
- Security-sensitive changes — auth, session, input validation, secrets.
- Database migrations / schema changes — table lớn, có locking, backfill ("migration này sẽ khóa ghi 90 giây trên bảng 50M dòng").
- Refactor nhiều file — cross-file drift, architectural consistency.
- Public API / SDK / webhook contracts — bắt breaking change trước khi consumer gãy.
- Performance-critical paths — hot loop, request handler, N+1 query.
- PR dài hoặc feature branch sống lâu — gate cuối trước merge.
Tình huống không nên dùng: typo, copy edits, version bump, rename-only refactor, draft đang iterate. Dùng /review cho những cái đó.
Giới hạn & pricing
Hạn chế không nhỏ:
- Thời gian và tiền — team đẩy 10 PR/ngày có thể tốn $150–250/ngày riêng cho review.
- Không tự approve PR — vẫn cần người.
- Không đánh giá quyết định kiến trúc/product (WebRTC hay WebSockets, state client hay server) — đó vẫn là việc của reviewer người.
- Chỉ chạy khi user gõ lệnh — không hook được vào CI/CD, không agent khác gọi được.
- Cần git repo + có diff. Không có diff thì không review.
- Repo quá lớn không bundle được → phải push branch, mở draft PR, dùng PR mode.
- Không chạy trên Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hoặc org bật Zero Data Retention.
- Phải đăng nhập Claude.ai (không chấp nhận API key thuần).
- Rollout staged sau feature flag — đúng version, đúng plan vẫn có thể chưa thấy command.
Pricing — bill như extra usage, không tính vào plan:
| Plan | Free runs | Sau free |
|---|---|---|
| Pro | 3 lượt (hết hạn 5/5/2026) | Extra usage ($5–20/run) |
| Max | 3 lượt (hết hạn 5/5/2026) | Extra usage ($5–20/run) |
| Team / Enterprise | 0 | Extra usage (avg $15–25/run) |
Admin có spend cap theo tháng, per-repo enablement, analytics dashboard (PR reviewed, acceptance rate, cost).
Roadmap
Ba tín hiệu đáng theo dõi:
- Local execution đang đến. Cat Wu xác nhận có "rất nhiều demand" chạy review sâu này ngay trong inner loop local — một chỉ báo PMF mạnh.
- Mở rộng tier. Nếu demand đủ lớn, Code Review sẽ xuống tới Pro (hiện chỉ Team/Enterprise có full access; Pro/Max chỉ có
/ultrareviewvia free runs). - Verification pattern chuẩn ngành. Kiến trúc "find → verify độc lập → dedup" được dự đoán áp dụng rộng trong 12 tháng tới — không chỉ bug detection mà cả security audit, performance analysis, accessibility review, docs completeness check. Cùng pattern, domain khác.
Cách đọc khung cảnh chung: Claude Code đang phân chia rõ local loop nhanh cho inner iteration và cloud loop rộng cho các gate lớn (pre-merge, overnight refactor, long-running analysis). /review và /ultrareview là hai cực của mô hình đó.
Nguồn: Claude Code Docs, Anthropic blog, The New Stack, InfoQ, TechCrunch.
