TL;DR

/ultrareview là slash command mới trong Claude Code, bắn một đội agent song song lên cloud sandbox của Anthropic để review branch hoặc PR GitHub. Điểm khác biệt lớn: mỗi bug được một nhóm agent thứ hai reproduce và verify độc lập trước khi báo về — giúp hạ false positive xuống dưới 1%. Đánh đổi: 5–20 phút và $5–25 mỗi review. Pro/Max có 3 lượt free (hết hạn 5/5/2026), Team/Enterprise trả extra usage từ đầu.

Có gì mới

Ngày 9/3/2026, Anthropic ra mắt Code Review cho Team và Enterprise ở dạng research preview. Đến 16/4/2026, khi Claude Opus 4.7 đổ bộ, slash command /ultrareview chính thức mở cho Pro/Max — trước đó nó đã bị lộ qua vụ source-map leak ngày 31/3 của package @anthropic-ai/claude-code v2.1.88.

Cơ chế tóm tắt trong một câu: bundle repo → upload cloud sandbox → dispatch fleet agent → mỗi agent review từ một góc → verify độc lập từng bug → dedup & rank → trả notification. Bạn chạy /ultrareview không tham số để review branch hiện tại so với default branch (kể cả code chưa push), hoặc /ultrareview 1234 để sandbox clone PR #1234 từ GitHub.

Yêu cầu: Claude Code v2.1.86+, đăng nhập bằng tài khoản Claude.ai (API key không đủ), và bật extra usage nếu muốn chạy trả phí.

Vì sao nó quan trọng

AI coding tools đang đẩy số PR tăng vọt, và bottleneck dịch từ viết sang review. Cat Wu — head of product của Claude Code — nói thẳng: "chỉ cần một kỹ sư, một prompt là ra được một PR trông hợp lý, nhưng người review phải mất hàng giờ để verify các edge case."

Ba con số đáng chú ý từ dữ liệu nội bộ Anthropic:

  • Tỉ lệ PR có review comment chất lượng nhảy từ 16% lên 54% sau khi áp Code Review.
  • PR >1.000 dòng: 84% ra findings, trung bình 7.5 issues.
  • Engineer đánh dấu dưới 1% findings là sai — nhờ lớp verify riêng.

Các con số kỹ thuật

Hạng mụcGiá trị
Fleet mặc định5 sub-agent (hỗ trợ tới 20)
Thời gian trung bình5–20 phút (scale theo PR)
Cost mỗi run$5–25 (docs: $5–20, báo chí: $15–25 avg)
False positive rate<1%
Test thực tế 11k dòng17 phút, 64 candidate → subset confirmed
PR <50 dòng31% ra findings, avg 0.5 issues
PR >1.000 dòng84% ra findings, avg 7.5 issues
Model routingOpus-class cho logic/verify, Sonnet-class cho style/CLAUDE.md

Pipeline 4 giai đoạn bên trong: Setup (provision cloud + spawn fleet) → Find (agent song song scan diff, mỗi agent 1 góc) → Verify (agent khác reproduce từng bug — đây là "secret weapon", Find tối ưu để nhạy, Verify tối ưu để đúng) → Dedup (gộp bug trùng, rank theo severity đỏ/vàng/tím).

So với /review và đối thủ

Dimension/review/ultrareview
Chạy ở đâuLocal, trong sessionCloud sandbox
AgentSingle-passFleet 5–20 song song
VerifyKhông — user tự lọcCó, <1% false positive
Thời gianVài giây đến vài phút5–20 phút
CostTính vào plan usageExtra usage ($5–25)
Ăn context windowKhông
Hợp choInner loop iterationPre-merge gate cho change quan trọng

So với GitHub Copilot code review và CodeRabbit, điểm khác biệt là multi-agent architecture + verification stage — ưu tiên sâu và chậm thay vì nhẹ và nhanh. Agent cũng flexibly traverse toàn bộ codebase chứ không chỉ diff, để bắt các interaction cross-file.

So với Claude Code GitHub Action (open source, vẫn hoạt động): Anthropic gọi thẳng /ultrareview là "more thorough and more expensive option." Và so với Claude Code Security (sweep toàn codebase liên tục cho security bug), Code Review focus vào logic errors — phát hiện security nhưng không sâu bằng.

Khi nào nên dùng

Nguyên tắc: nếu chi phí của một bug bị miss lớn hơn chi phí review, hãy chạy. Các tình huống đáng tiền:

  • Security-sensitive changes — auth, session, input validation, secrets.
  • Database migrations / schema changes — table lớn, có locking, backfill ("migration này sẽ khóa ghi 90 giây trên bảng 50M dòng").
  • Refactor nhiều file — cross-file drift, architectural consistency.
  • Public API / SDK / webhook contracts — bắt breaking change trước khi consumer gãy.
  • Performance-critical paths — hot loop, request handler, N+1 query.
  • PR dài hoặc feature branch sống lâu — gate cuối trước merge.

Tình huống không nên dùng: typo, copy edits, version bump, rename-only refactor, draft đang iterate. Dùng /review cho những cái đó.

Giới hạn & pricing

Hạn chế không nhỏ:

  • Thời gian và tiền — team đẩy 10 PR/ngày có thể tốn $150–250/ngày riêng cho review.
  • Không tự approve PR — vẫn cần người.
  • Không đánh giá quyết định kiến trúc/product (WebRTC hay WebSockets, state client hay server) — đó vẫn là việc của reviewer người.
  • Chỉ chạy khi user gõ lệnh — không hook được vào CI/CD, không agent khác gọi được.
  • Cần git repo + có diff. Không có diff thì không review.
  • Repo quá lớn không bundle được → phải push branch, mở draft PR, dùng PR mode.
  • Không chạy trên Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hoặc org bật Zero Data Retention.
  • Phải đăng nhập Claude.ai (không chấp nhận API key thuần).
  • Rollout staged sau feature flag — đúng version, đúng plan vẫn có thể chưa thấy command.

Pricing — bill như extra usage, không tính vào plan:

PlanFree runsSau free
Pro3 lượt (hết hạn 5/5/2026)Extra usage ($5–20/run)
Max3 lượt (hết hạn 5/5/2026)Extra usage ($5–20/run)
Team / Enterprise0Extra usage (avg $15–25/run)

Admin có spend cap theo tháng, per-repo enablement, analytics dashboard (PR reviewed, acceptance rate, cost).

Roadmap

Ba tín hiệu đáng theo dõi:

  • Local execution đang đến. Cat Wu xác nhận có "rất nhiều demand" chạy review sâu này ngay trong inner loop local — một chỉ báo PMF mạnh.
  • Mở rộng tier. Nếu demand đủ lớn, Code Review sẽ xuống tới Pro (hiện chỉ Team/Enterprise có full access; Pro/Max chỉ có /ultrareview via free runs).
  • Verification pattern chuẩn ngành. Kiến trúc "find → verify độc lập → dedup" được dự đoán áp dụng rộng trong 12 tháng tới — không chỉ bug detection mà cả security audit, performance analysis, accessibility review, docs completeness check. Cùng pattern, domain khác.

Cách đọc khung cảnh chung: Claude Code đang phân chia rõ local loop nhanh cho inner iterationcloud loop rộng cho các gate lớn (pre-merge, overnight refactor, long-running analysis). /review/ultrareview là hai cực của mô hình đó.

Nguồn: Claude Code Docs, Anthropic blog, The New Stack, InfoQ, TechCrunch.