- Cloudflare vừa hé lộ hệ thống AI Code Review nội bộ — mỗi merge request trên GitLab đều bị 1 đội AI reviewer mổ xẻ, routing model theo độ phức tạp MR, chạy trên 5,169 repo.
- 131,246 review trong 30 ngày, trung vị 3 phút 39 giây, cache hit 85.7%.
TL;DR
Cloudflare vừa công bố AI Code Review — hệ thống orchestrator chạy trên mọi GitLab merge request (MR) nội bộ. PM Matt Silverlock (@elithrar) tóm gọn trên X: "automated review on every GitLab MR (with human oversight & override). we mix Kimi K2.5 on Workers AI and Opus + GPT-5.4 based on MR size & complexity". 30 ngày đầu: 131,246 review trên 48,095 MR xuyên 5,169 repo, trung vị 3 phút 39 giây, chi phí trung bình $1.19/review, cache hit 85.7%.

What's new
Khác với các công cụ review-by-bot thông thường (1 model, 1 prompt), Cloudflare xây một CI-native orchestrator quanh OpenCode — agent coding mã nguồn mở. Mỗi MR bị dispatch tới tối đa 7 reviewer agent chuyên trách: Security, Performance, Code Quality, Documentation, Release Management, Compliance, và AGENTS.md. Một coordinator điều phối, tổng hợp findings, và post comment inline qua GitLab API. Dev có quyền trả lời "won't fix" hoặc dùng break glass để merge khẩn cấp — human override vẫn là law.
Why it matters
Đây là lần đầu một org cỡ Cloudflare công khai chi tiết cost economics của AI review ở scale sản xuất. Điểm đáng suy ngẫm: cache hit 85.7% là load-bearing — nếu không có nó, chi phí $1.19/review sẽ vọt lên nhiều lần và bill hàng chục nghìn USD/tháng. Pattern này replicable với bất kỳ team nào có Workers AI + OpenCode.
Technical facts (30 ngày đầu)
- 131,246 lượt review trên 48,095 MR / 5,169 repo
- Trung vị hoàn tất: 3 phút 39 giây
- Chi phí trung bình: $1.19/review (median $0.98)
- Tổng findings: 159,103 (~1.2/review); Code Quality 74,898, Security 11,985 (4% critical)
- Tokens xử lý: ~120 tỷ; cache hit rate 85.7%
- Break glass override: chỉ 0.6% (288 lần)
- Volume MR nội bộ tăng 5,600 → 8,700/tuần sau rollout

Model routing theo size & complexity
Không dùng 1 model cho tất cả. Hệ thống chia MR thành 3 tier và chọn coordinator + số reviewer khác nhau:
| Tier | Tiêu chí | Sub-reviewers | Coordinator |
|---|---|---|---|
| Trivial | ≤10 dòng, ≤20 files | 2 | Claude Sonnet 4.6 |
| Lite | ≤100 dòng, ≤20 files | 4 | Claude Opus 4.7 |
| Full | >100 dòng hoặc >50 files | 7+ | Claude Opus 4.7 |
Phân bổ model:
- Top-tier (coordinator): Claude Opus 4.7, GPT-5.4
- Workhorse sub-reviewer: Claude Sonnet 4.6, GPT-5.3 Codex — chạy Security, Quality, Performance
- Lightweight text-heavy: Kimi K2.5 trên Workers AI — Documentation, Release, AGENTS.md
File path thuộc security-sensitive luôn tự động force lên Full review, bất kể MR to nhỏ.
Comparison: vì sao không dùng 1 model?
Cost split: top-tier chiếm 51.8% chi phí, standard-tier 46.2%, còn Kimi K2.5 xử 11.7 tỷ input tokens nhưng chi phí gần như zero vì chạy trên Workers AI nội bộ. Nếu gán mọi job cho Opus 4.7, chi phí/review sẽ nhiều lần $1.19 hiện tại; nếu dùng toàn Kimi K2.5, chất lượng tìm bug logic & injection sẽ rớt. Multi-model routing là đánh đổi tối ưu giữa accuracy / latency / cost.
Use cases
- Monorepo lớn, nhiều MR/tuần: auto-review gỡ bottleneck human reviewer
- Compliance-heavy team: Engineering Codex được cite trong findings — enforcement có traceability
- Security-first: mỗi MR đều scan injection, auth bypass, hardcoded secrets
- Docs debt: Documentation + AGENTS.md reviewer giữ context files tươi xuyên ~3,900 repo
- Adoption nội bộ Cloudflare: 93% R&D (3,683 users) trong < 12 tháng
Limitations & pricing
- Chưa phải SaaS. Đây là hệ thống nội bộ Cloudflare; blog frame như pattern để team khác replicate với Workers AI + OpenCode
- Tuned bias toward approve with comments hơn là block — tránh false positive làm nghẽn pipeline
- Cost floor ~ $1/review ở tier cao; 85.7% cache hit là load-bearing, sập cache = bill đội
- Resilience: circuit breaker, per-task 5 phút / overall 25 phút / inactivity kill 60 giây, failback chain Opus 4.7 → Opus 4.6
- Workers AI large models (Kimi K2.5) GA từ 2026-03-19: 256k context, tool calling, vision input, structured output
What's next
Đọc giữa dòng: roadmap khả dĩ là (1) mở rộng pool model trên Workers AI — thêm large open-source models cạnh Kimi K2.5, (2) thêm specialist reviewer, (3) có thể productize thành GitLab CI component cho org khác xài. Với org đang đánh giá AI review: bài học lớn nhất không phải "dùng model nào" mà là "route model theo risk tier, cache aggressive, cho human override dễ dàng".
Nguồn: Orchestrating AI Code Review at scale — Cloudflare (Ryan Skidmore, 2026-04-20), Cloudflare internal AI engineering stack, Workers AI runs large models — Kimi K2.5, Matt Silverlock @elithrar.


