Claude Code /ultrareview: đội agent review code song song trên cloud, verify từng bug trước khi báo

← quay lại timelineArticle thread

Claude Code /ultrareview: đội agent review code song song trên cloud, verify từng bug trước khi báo

D. Chu

@donniechublog·23 Apr

23 Apr 2026·7 phút đọc

Highlights

Anthropic vừa ship /ultrareview — slash command gọi một đội agent chuyên biệt lên cloud sandbox, review PR từ nhiều góc (bug, edge case, security), rồi chạy một lớp agent riêng để verify từng phát hiện trước khi báo về.
Kết quả: <1% false positive, nhưng tốn 5–20 phút và $5–25 mỗi lần chạy.

TL;DR

/ultrareview là slash command mới trong Claude Code, bắn một đội agent song song lên cloud sandbox của Anthropic để review branch hoặc PR GitHub. Điểm khác biệt lớn: mỗi bug được một nhóm agent thứ hai reproduce và verify độc lập trước khi báo về — giúp hạ false positive xuống dưới 1%. Đánh đổi: 5–20 phút và $5–25 mỗi review. Pro/Max có 3 lượt free (hết hạn 5/5/2026), Team/Enterprise trả extra usage từ đầu.

Có gì mới

Ngày 9/3/2026, Anthropic ra mắt Code Review cho Team và Enterprise ở dạng research preview. Đến 16/4/2026, khi Claude Opus 4.7 đổ bộ, slash command /ultrareview chính thức mở cho Pro/Max — trước đó nó đã bị lộ qua vụ source-map leak ngày 31/3 của package @anthropic-ai/claude-code v2.1.88.

Cơ chế tóm tắt trong một câu: bundle repo → upload cloud sandbox → dispatch fleet agent → mỗi agent review từ một góc → verify độc lập từng bug → dedup & rank → trả notification. Bạn chạy /ultrareview không tham số để review branch hiện tại so với default branch (kể cả code chưa push), hoặc /ultrareview 1234 để sandbox clone PR #1234 từ GitHub.

Yêu cầu: Claude Code v2.1.86+, đăng nhập bằng tài khoản Claude.ai (API key không đủ), và bật extra usage nếu muốn chạy trả phí.

Vì sao nó quan trọng

AI coding tools đang đẩy số PR tăng vọt, và bottleneck dịch từ viết sang review. Cat Wu — head of product của Claude Code — nói thẳng: "chỉ cần một kỹ sư, một prompt là ra được một PR trông hợp lý, nhưng người review phải mất hàng giờ để verify các edge case."

Ba con số đáng chú ý từ dữ liệu nội bộ Anthropic:

Tỉ lệ PR có review comment chất lượng nhảy từ 16% lên 54% sau khi áp Code Review.
PR >1.000 dòng: 84% ra findings, trung bình 7.5 issues.
Engineer đánh dấu dưới 1% findings là sai — nhờ lớp verify riêng.

Các con số kỹ thuật

Hạng mục	Giá trị
Fleet mặc định	5 sub-agent (hỗ trợ tới 20)
Thời gian trung bình	5–20 phút (scale theo PR)
Cost mỗi run	$5–25 (docs: $5–20, báo chí: $15–25 avg)
False positive rate	<1%
Test thực tế 11k dòng	17 phút, 64 candidate → subset confirmed
PR <50 dòng	31% ra findings, avg 0.5 issues
PR >1.000 dòng	84% ra findings, avg 7.5 issues
Model routing	Opus-class cho logic/verify, Sonnet-class cho style/CLAUDE.md

Pipeline 4 giai đoạn bên trong: Setup (provision cloud + spawn fleet) → Find (agent song song scan diff, mỗi agent 1 góc) → Verify (agent khác reproduce từng bug — đây là "secret weapon", Find tối ưu để nhạy, Verify tối ưu để đúng) → Dedup (gộp bug trùng, rank theo severity đỏ/vàng/tím).

So với /review và đối thủ

Dimension	/review	/ultrareview
Chạy ở đâu	Local, trong session	Cloud sandbox
Agent	Single-pass	Fleet 5–20 song song
Verify	Không — user tự lọc	Có, <1% false positive
Thời gian	Vài giây đến vài phút	5–20 phút
Cost	Tính vào plan usage	Extra usage ($5–25)
Ăn context window	Có	Không
Hợp cho	Inner loop iteration	Pre-merge gate cho change quan trọng

So với GitHub Copilot code review và CodeRabbit, điểm khác biệt là multi-agent architecture + verification stage — ưu tiên sâu và chậm thay vì nhẹ và nhanh. Agent cũng flexibly traverse toàn bộ codebase chứ không chỉ diff, để bắt các interaction cross-file.

So với Claude Code GitHub Action (open source, vẫn hoạt động): Anthropic gọi thẳng /ultrareview là "more thorough and more expensive option." Và so với Claude Code Security (sweep toàn codebase liên tục cho security bug), Code Review focus vào logic errors — phát hiện security nhưng không sâu bằng.

Khi nào nên dùng

Nguyên tắc: nếu chi phí của một bug bị miss lớn hơn chi phí review, hãy chạy. Các tình huống đáng tiền:

Security-sensitive changes — auth, session, input validation, secrets.
Database migrations / schema changes — table lớn, có locking, backfill ("migration này sẽ khóa ghi 90 giây trên bảng 50M dòng").
Refactor nhiều file — cross-file drift, architectural consistency.
Public API / SDK / webhook contracts — bắt breaking change trước khi consumer gãy.
Performance-critical paths — hot loop, request handler, N+1 query.
PR dài hoặc feature branch sống lâu — gate cuối trước merge.

Tình huống không nên dùng: typo, copy edits, version bump, rename-only refactor, draft đang iterate. Dùng /review cho những cái đó.

Giới hạn & pricing

Hạn chế không nhỏ:

Thời gian và tiền — team đẩy 10 PR/ngày có thể tốn $150–250/ngày riêng cho review.
Không tự approve PR — vẫn cần người.
Không đánh giá quyết định kiến trúc/product (WebRTC hay WebSockets, state client hay server) — đó vẫn là việc của reviewer người.
Chỉ chạy khi user gõ lệnh — không hook được vào CI/CD, không agent khác gọi được.
Cần git repo + có diff. Không có diff thì không review.
Repo quá lớn không bundle được → phải push branch, mở draft PR, dùng PR mode.
Không chạy trên Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hoặc org bật Zero Data Retention.
Phải đăng nhập Claude.ai (không chấp nhận API key thuần).
Rollout staged sau feature flag — đúng version, đúng plan vẫn có thể chưa thấy command.

Pricing — bill như extra usage, không tính vào plan:

Plan	Free runs	Sau free
Pro	3 lượt (hết hạn 5/5/2026)	Extra usage ($5–20/run)
Max	3 lượt (hết hạn 5/5/2026)	Extra usage ($5–20/run)
Team / Enterprise	0	Extra usage (avg $15–25/run)

Admin có spend cap theo tháng, per-repo enablement, analytics dashboard (PR reviewed, acceptance rate, cost).

Roadmap

Ba tín hiệu đáng theo dõi:

Local execution đang đến. Cat Wu xác nhận có "rất nhiều demand" chạy review sâu này ngay trong inner loop local — một chỉ báo PMF mạnh.
Mở rộng tier. Nếu demand đủ lớn, Code Review sẽ xuống tới Pro (hiện chỉ Team/Enterprise có full access; Pro/Max chỉ có /ultrareview via free runs).
Verification pattern chuẩn ngành. Kiến trúc "find → verify độc lập → dedup" được dự đoán áp dụng rộng trong 12 tháng tới — không chỉ bug detection mà cả security audit, performance analysis, accessibility review, docs completeness check. Cùng pattern, domain khác.

Cách đọc khung cảnh chung: Claude Code đang phân chia rõ local loop nhanh cho inner iteration và cloud loop rộng cho các gate lớn (pre-merge, overnight refactor, long-running analysis). /review và /ultrareview là hai cực của mô hình đó.

Nguồn: Claude Code Docs, Anthropic blog, The New Stack, InfoQ, TechCrunch.

Claude Code /ultrareview: đội agent review code song song trên cloud, verify từng bug trước khi báo

TL;DR

Có gì mới

Vì sao nó quan trọng

Các con số kỹ thuật

So với /review và đối thủ

Khi nào nên dùng

Giới hạn & pricing

Roadmap

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Orca IDE v1.3.18: Bình luận trực tiếp lên diff, gửi cả review cho AI agent trong một click

CubeSandbox: Tencent vừa open-source nền tảng chạy hàng nghìn AI agent isolation thật trong vài mili-giây