- Đội Dev Productivity của Cloudflare công bố hành trình 11 tháng scale AI coding từ vài đội thử nghiệm lên 93% toàn R&D, 241B token/tháng, và 100% merge request được AI review — tất cả chạy trên chính nền tảng họ bán.
TL;DR
Ngày 20/04/2026, Cloudflare đăng hai bài blog dài chi tiết cách đội Dev Productivity nội bộ đưa AI coding từ vài đội pilot lên toàn công ty trong 11 tháng. Kết quả: 93% adoption trong R&D (3,683 / ~6,100 nhân sự, 60% toàn Cloudflare), 241.37 tỷ token/tháng qua AI Gateway, 100% merge request trên CI chuẩn đều được AI review. Năng suất MR trung bình 4 tuần tăng từ ~5,600 lên hơn 8,700 MR/tuần. Toàn bộ stack chạy trên sản phẩm Cloudflare tự bán — không gọi service ngoài.

Có gì mới
Bài 1 — "The AI engineering stack we built internally" — tổng quan toàn bộ nền tảng AI nội bộ: AI Gateway làm router + observability, Workers AI chạy model mã nguồn mở, 13 MCP server production expose 182+ tool nội bộ cho agent, Backstage giữ knowledge graph 2,055 service / 16K+ entity, và Dynamic Workers cô lập sandbox chạy code sinh bởi AI.
Bài 2 — "Orchestrating AI Code Review at scale" — đào sâu hệ thống review. Thay vì một prompt khổng lồ, Cloudflare chia review thành tối đa 7 agent chuyên biệt (security, code quality, performance, documentation, release management, Codex compliance, AGENTS.md) + 1 Review Coordinator tổng hợp. Coordinator đọc code gốc khi nghi ngờ, dedupe finding, loại false positive trước khi comment lên MR.
Chỉ số kỹ thuật

| Chỉ số | Giá trị (30 ngày) |
|---|---|
| R&D adoption | 93% (3,683 user / 295 team) |
| Token qua AI Gateway | 241.37B / tháng |
| Request AI Gateway | 20.18M / tháng |
| MR được review | 48,095 MR · 131,246 lượt chạy |
| Thời gian review trung vị | 3 phút 39 giây |
| Chi phí trung bình/review | $1.19 |
| Prompt cache hit rate | 85.7% |
| Token chỉ riêng code review | 120B / tháng |
| Break-glass override | 288 lần (0.6%) |
Chiến lược tier model
Stack phân tier để tối ưu chi phí vs năng lực:
- Top-tier (Claude Opus 4.7, GPT-5.4): chỉ dành cho Coordinator — nơi phán đoán phức tạp nhất.
- Standard-tier (Claude Sonnet 4.6, GPT-5.3 Codex): gánh các reviewer nặng — security, code quality, performance.
- Lightweight (Kimi K2.5): task text-heavy — documentation, release notes, AGENTS.md.
Risk tiering scale chi phí theo quy mô thay đổi: Trivial (≤10 dòng, 2 agent, $0.20) → Lite (≤100 dòng, 4 agent, $0.67) → Full (>100 dòng, 7+ agent, $1.68). File nhạy cảm bảo mật luôn full review bất kể kích thước.
So với cách làm thông thường
Hầu hết enterprise rollout AI coding hiện nay bolt vào IDE vendor (Copilot Enterprise, Cursor Business). Cloudflare đi hướng ngược — orchestration CI-native, không bắt dev đổi IDE, code không rời infra Cloudflare, MCP server expose trực tiếp tool nội bộ (Backstage, deploy status, service ownership). Control plane là một Cloudflare Worker — thay mapping agent↔model bằng update config, không cần deploy lại.
Chống lỗi
Circuit breaker theo dõi health từng model (healthy / degraded / open). Khi một tier fail, hệ thống fallback theo chuỗi cùng họ model trước (Opus 4.7 → Opus 4.6) rồi mới chuyển sang nhà cung cấp khác. Error classification tách retryable (rate limit) với unrecoverable (auth, context overflow) để quyết định retry hay không.
Use case thực tế

- Review mọi MR tự động — finding phân severity Critical / Warning / Suggestion / Optional, post lên MR dưới dạng comment có cấu trúc.
- AGENTS.md tự động sinh trên ~3,900 repo — cung cấp context (test command, convention, boundary) cho agent. File stale bị AI Reviewer flag lại.
- MCP agent tooling — dev hỏi agent qua 182+ tool nội bộ: tra service owner, deploy gần nhất, on-call, v.v.
- Sandbox chạy code sinh bởi AI trong Dynamic Workers — an toàn khi LLM ảo giác lệnh shell hoặc viết migration sai.
Ai hưởng lợi nhiều nhất? Các org kỹ thuật lớn có monorepo / polyrepo, yêu cầu tuân thủ nghiêm, muốn AI nhưng không gửi source ra cloud bên thứ ba.
Hạn chế & chi phí
- Đây là stack nội bộ — Cloudflare không đóng gói bán thành một sản phẩm. Nhưng các component (AI Gateway, Workers AI, Sandbox SDK, Workers) đều public trên nền tảng.
- Break-glass override 0.6% — nghe nhỏ nhưng là tín hiệu AI vẫn tạo friction thỉnh thoảng (false positive hoặc block đúng lúc ship gấp).
- Chi phí review thô: $1.19 × 131K run ≈ $156K/tháng, trước khi prompt cache (hit rate 85.7%) cắt xuống mức "five-figure USD mỗi tháng" theo Cloudflare.
- Rollout chưa phủ 100% repo legacy — vẫn đang mở rộng.
Tiếp theo
Cloudflare nói kế hoạch gần là: mở rộng số reviewer chuyên biệt, tinh chỉnh Coordinator prompt, đẩy thêm traffic sang Workers AI để giảm chi phí token top-tier, và tiếp tục trưởng thành hệ MCP server. Dự án bắt đầu từ một tiger team iMARS (Internal MCP Agent/Server Rollout Squad), sau đó handover cho Dev Productivity team — team đang sở hữu CI/CD, build system, automation nội bộ. Data cutoff cho numbers ở trên là 15/04/2026.
Nguồn: blog.cloudflare.com — internal AI engineering stack, blog.cloudflare.com — orchestrating AI code review, tweet thread của Rajesh BH.


