Cloudflare chạy AI review trên mọi GitLab MR: 131k lượt/tháng, $1.19/review, mix Kimi K2.5 + Opus 4.7 + GPT-5.4

TL;DR

Cloudflare vừa công bố AI Code Review — hệ thống orchestrator chạy trên mọi GitLab merge request (MR) nội bộ. PM Matt Silverlock (@elithrar) tóm gọn trên X: "automated review on every GitLab MR (with human oversight & override). we mix Kimi K2.5 on Workers AI and Opus + GPT-5.4 based on MR size & complexity". 30 ngày đầu: 131,246 review trên 48,095 MR xuyên 5,169 repo, trung vị 3 phút 39 giây, chi phí trung bình $1.19/review, cache hit 85.7%.

Cloudflare Orchestrating AI Code Review at scale

What's new

Khác với các công cụ review-by-bot thông thường (1 model, 1 prompt), Cloudflare xây một CI-native orchestrator quanh OpenCode — agent coding mã nguồn mở. Mỗi MR bị dispatch tới tối đa 7 reviewer agent chuyên trách: Security, Performance, Code Quality, Documentation, Release Management, Compliance, và AGENTS.md. Một coordinator điều phối, tổng hợp findings, và post comment inline qua GitLab API. Dev có quyền trả lời "won't fix" hoặc dùng break glass để merge khẩn cấp — human override vẫn là law.

Why it matters

Đây là lần đầu một org cỡ Cloudflare công khai chi tiết cost economics của AI review ở scale sản xuất. Điểm đáng suy ngẫm: cache hit 85.7% là load-bearing — nếu không có nó, chi phí $1.19/review sẽ vọt lên nhiều lần và bill hàng chục nghìn USD/tháng. Pattern này replicable với bất kỳ team nào có Workers AI + OpenCode.

Technical facts (30 ngày đầu)

131,246 lượt review trên 48,095 MR / 5,169 repo
Trung vị hoàn tất: 3 phút 39 giây
Chi phí trung bình: $1.19/review (median $0.98)
Tổng findings: 159,103 (~1.2/review); Code Quality 74,898, Security 11,985 (4% critical)
Tokens xử lý: ~120 tỷ; cache hit rate 85.7%
Break glass override: chỉ 0.6% (288 lần)
Volume MR nội bộ tăng 5,600 → 8,700/tuần sau rollout

AI code review orchestration diagram

Model routing theo size & complexity

Không dùng 1 model cho tất cả. Hệ thống chia MR thành 3 tier và chọn coordinator + số reviewer khác nhau:

Tier	Tiêu chí	Sub-reviewers	Coordinator
Trivial	≤10 dòng, ≤20 files	2	Claude Sonnet 4.6
Lite	≤100 dòng, ≤20 files	4	Claude Opus 4.7
Full	>100 dòng hoặc >50 files	7+	Claude Opus 4.7

Phân bổ model:

Top-tier (coordinator): Claude Opus 4.7, GPT-5.4
Workhorse sub-reviewer: Claude Sonnet 4.6, GPT-5.3 Codex — chạy Security, Quality, Performance
Lightweight text-heavy: Kimi K2.5 trên Workers AI — Documentation, Release, AGENTS.md

File path thuộc security-sensitive luôn tự động force lên Full review, bất kể MR to nhỏ.

Comparison: vì sao không dùng 1 model?

Cost split: top-tier chiếm 51.8% chi phí, standard-tier 46.2%, còn Kimi K2.5 xử 11.7 tỷ input tokens nhưng chi phí gần như zero vì chạy trên Workers AI nội bộ. Nếu gán mọi job cho Opus 4.7, chi phí/review sẽ nhiều lần $1.19 hiện tại; nếu dùng toàn Kimi K2.5, chất lượng tìm bug logic & injection sẽ rớt. Multi-model routing là đánh đổi tối ưu giữa accuracy / latency / cost.

Use cases

Monorepo lớn, nhiều MR/tuần: auto-review gỡ bottleneck human reviewer
Compliance-heavy team: Engineering Codex được cite trong findings — enforcement có traceability
Security-first: mỗi MR đều scan injection, auth bypass, hardcoded secrets
Docs debt: Documentation + AGENTS.md reviewer giữ context files tươi xuyên ~3,900 repo
Adoption nội bộ Cloudflare: 93% R&D (3,683 users) trong < 12 tháng

Limitations & pricing

Chưa phải SaaS. Đây là hệ thống nội bộ Cloudflare; blog frame như pattern để team khác replicate với Workers AI + OpenCode
Tuned bias toward approve with comments hơn là block — tránh false positive làm nghẽn pipeline
Cost floor ~ $1/review ở tier cao; 85.7% cache hit là load-bearing, sập cache = bill đội
Resilience: circuit breaker, per-task 5 phút / overall 25 phút / inactivity kill 60 giây, failback chain Opus 4.7 → Opus 4.6
Workers AI large models (Kimi K2.5) GA từ 2026-03-19: 256k context, tool calling, vision input, structured output

What's next

Đọc giữa dòng: roadmap khả dĩ là (1) mở rộng pool model trên Workers AI — thêm large open-source models cạnh Kimi K2.5, (2) thêm specialist reviewer, (3) có thể productize thành GitLab CI component cho org khác xài. Với org đang đánh giá AI review: bài học lớn nhất không phải "dùng model nào" mà là "route model theo risk tier, cache aggressive, cho human override dễ dàng".

Nguồn: Orchestrating AI Code Review at scale — Cloudflare (Ryan Skidmore, 2026-04-20), Cloudflare internal AI engineering stack, Workers AI runs large models — Kimi K2.5, Matt Silverlock @elithrar.

Cloudflare chạy AI review trên mọi GitLab MR: 131k lượt/tháng, $1.19/review, mix Kimi K2.5 + Opus 4.7 + GPT-5.4

TL;DR

What's new

Why it matters

Technical facts (30 ngày đầu)

Model routing theo size & complexity

Comparison: vì sao không dùng 1 model?

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

DeepSeek V4 Pro tự giải 4 challenge bảo mật expert-level chỉ với $6.84

One Cache to Rule Them All: Durable Objects Kill the Thundering Herd

Hermes Video Agent: pipeline tự động "1 URL vào — clip dịch & đăng X ra", vừa open-source MIT

Cloudflare Email Service lên public beta: email trở thành giao diện cho AI agent

/ultrareview: Anthropic thả "hạm đội" agent săn bug trong cloud sandbox của Claude Code