- Tiger team iMARS của Cloudflare xây toàn bộ AI engineering stack nội bộ chỉ bằng chính sản phẩm họ bán: AI Gateway, Workers AI, Access, MCP Portal.
- Kết quả 30 ngày gần nhất: 3.683 user active, 241B token qua AI Gateway, mọi merge request đều được AI review với median 3m39s — và mở ra roadmap background agents.

TL;DR
- 93% R&D Cloudflare dùng AI coding tools sau 11 tháng triển khai nội bộ — 3.683/≈6.100 nhân viên active, 60% toàn công ty.
- 241,37 tỷ token/tháng chạy qua AI Gateway; 51,83B nữa chạy thẳng trên Workers AI; OpenCode một mình 27M message.
- Mọi merge request đều được AI review, median 3 phút 39 giây, chi phí median $0,98, break-glass chỉ 0,6% — xây bằng OpenCode + Workers + coordinator Opus 4.7/GPT-5.4.
- Toàn stack chạy trên chính sản phẩm Cloudflare bán cho khách: Access, AI Gateway, Workers AI, MCP Portal, Dynamic Workers, Agents SDK, Sandbox SDK, Workflows.
- Roadmap kế tiếp: background agents chạy cloud-side clone repo, test, fix, mở MR — dùng Durable Objects + Sandbox SDK (GA trong Agents Week 2026).
Nội bộ iMARS và kiến trúc 3 lớp
11 tháng trước, Cloudflare lập tiger team iMARS (Internal MCP Agent/Server Rollout Squad) kéo engineer khắp công ty để trả lời một câu hỏi: làm sao để agent AI thực sự hữu ích trong engineering stack nội bộ, không chỉ là copilot tự do. Dev Productivity team tiếp quản và đóng gói thành ba lớp rõ ràng:
- Platform layer — Cloudflare Access (zero-trust auth) → single proxy Worker → AI Gateway (routing, cost tracking, BYOK, Zero Data Retention) → Workers AI (open-weight inference cùng network với Workers/DO/storage).
- Knowledge layer — Backstage self-hosted làm knowledge graph 16K+ entity + file
AGENTS.mdtrong từng repo. - Enforcement layer — AI Code Reviewer chạy CI-native + Engineering Codex (internal standards thành agent skills).
Điểm khác biệt, theo Cloudflare, không nằm ở từng thành phần — nhiều công ty đã có service catalog và reviewer bot — mà ở wiring: agent kéo context từ Backstage, đọc AGENTS.md đúng repo, rồi được review theo rule Codex, tất cả qua cùng một toolchain.
MCP Server Portal và Code Mode: cắt 15K token overhead
Portal nội bộ gom 13 MCP server, 182+ tool (GitLab, Jira, Sentry, Elasticsearch, Prometheus, Google Workspace, Backstage, Release Manager) đứng sau một OAuth flow duy nhất qua Cloudflare Access.
Vấn đề thực tế: mỗi tool definition ngốn context window. GitLab MCP gốc có 34 tool ≈ 15.000 token cho mỗi request — 7,5% của context 200K biến mất trước cả khi agent bắt đầu suy nghĩ. Nhân với mỗi request, mỗi engineer, mỗi ngày = tiền thật.
Giải pháp: Code Mode tại tầng portal. Thay vì load toàn bộ schema, portal gom tất cả thành 2 tool: portal_codemode_search và portal_codemode_execute. Model tự discover và gọi tool bằng code. Thêm MCP server mới không làm phình schema phía client nữa.
Backstage 16K entity + AGENTS.md cho 3.900 repo
Trước khi MCP server có ích, cần dữ liệu có cấu trúc. Backstage (self-hosted, là mảnh duy nhất không chạy trên Cloudflare) track: 2.055 service, 167 library, 122 package, 228 API, 544 system/45 domain, 1.302 database, 277 bảng ClickHouse, 375 team, 6.389 user — plus dependency graph.
Thiếu data này, agent "làm việc trong bóng tối" — đọc được code trước mặt nhưng không biết hệ thống xung quanh.
Mỗi repo có thêm một file AGENTS.md ngắn gọn: test command, convention, vùng cấm. Cloudflare chạy pipeline AI pull từ Backstage catalog → sinh file cho ~3.900 repo. File rot nhanh, nên AI Code Reviewer có thêm một reviewer chuyên dụng flag MR nào thay đổi kiến trúc lớn mà không update AGENTS.md.
AI Code Reviewer: multi-agent, risk-tier, 3m39s median
Thay vì một prompt khổng lồ, Cloudflare orchestrate nhiều agent chuyên ngành quanh OpenCode:
- Coordinator agent (Claude Opus 4.7 hoặc GPT-5.4) được spawn bằng
Bun.spawnvới--format json, nhận prompt qua stdin (tránh Linux ARG_MAX E2BIG). - Output stream dưới dạng JSONL — mỗi dòng là một JSON object tự đóng, dễ parse real-time, không sợ buffer chết khi process crash.
- Coordinator gọi
spawn_reviewerstool để chạy 2–7 sub-reviewer song song (Security, Performance, Code Quality, Documentation, Release, Codex compliance, AGENTS.md). - Sub-reviewer dùng standard tier (Sonnet 4.6 / GPT-5.3 Codex) hoặc Kimi K2.5 cho task text-heavy, đọc chung
shared-mr-context.txtthay vì duplicate MR context 7 lần. - Mọi finding là XML có severity (critical/warning/suggestion). Coordinator dedup, recategorize, drop speculative nitpicks, post một comment cuối cùng.
Risk tier: không gửi 7 agent Opus để review typo
| Tier | Diff | Agents | Avg cost |
|---|---|---|---|
| Trivial | ≤10 lines, ≤20 files | 2 | $0.20 |
| Lite | ≤100 lines, ≤20 files | 4 | $0.67 |
| Full | >100 lines hoặc file security-sensitive | 7+ | $1.68 |
File đụng auth/, crypto/, hoặc path nghe "security" đều auto Full bất kể size.
Số thực 30 ngày đầu
- 131.246 review qua 48.095 MR ở 5.169 repo
- Median 3 phút 39 giây, avg 2,7 review/MR (re-review khi engineer push fix)
- Cost median $0,98, avg $1,19, P99 $4,45
- 159.103 finding tổng, chỉ ~1,2/review — cố tình thấp để signal > noise
- Break-glass override chỉ 288 lần = 0,6% MR
- Cache hit rate 85,7% trên 120B token/tháng — tiết kiệm 5-figure USD so với full input pricing
Workers AI: Kimi K2.5 rẻ hơn 77% so với proprietary
Frontier lab (OpenAI/Anthropic/Google) vẫn gánh 91,16% request nhờ khả năng reasoning, nhưng Workers AI đang ăn dần phần việc nặng-lặp. Ví dụ security agent nội bộ xử 7B token/ngày — ~$2,4 triệu/năm trên proprietary mid-tier, nhưng chạy Kimi K2.5 trên Workers AI rẻ hơn 77%. Trong AI Code Reviewer, Kimi nuốt 11,7B input token mà chi phí... ~0 vì chạy native Workers AI.
Impact: MR weekly từ 5.600 → 10.952
4-week rolling average merge request nhảy từ ~5.600/tuần lên >8.700. Tuần 23/3 chạm 10.952 — gần gấp đôi baseline Q4. Median thời gian chờ review đầu tiên từ "đo bằng giờ" xuống 3m39s, thường engineer chưa kịp context-switch đã thấy comment.
Network Firewall team audit rampartd bằng multi-agent consensus: mỗi requirement được scoring COMPLIANT / PARTIAL / NON-COMPLIANT kèm violation và remediation — việc từng mất hàng tuần thủ công nay thành quy trình lặp lại được.
Limitations & pricing Cloudflare thẳng thắn thừa nhận
- Architectural awareness: reviewer thấy diff nhưng không biết tại sao hệ thống được design như vậy.
- Cross-system impact: flag được API contract change, không verify được downstream consumer đã update chưa.
- Concurrency/race condition: khó bắt từ static diff.
- Cost scales với diff size: 500-file refactor với 7 frontier model call là tiền thật. Warning nổ khi coordinator prompt > 50% context.
Cloudflare nói rõ: chưa thay thế human review, nhất là cho architectural direction.
What's next: background agents cloud-native
Evolution kế tiếp là background agents: không còn bám local dev env hay vài phút CI pipeline, mà chạy extended cloud session. Durable Objects + Agents SDK orchestrate; Sandbox SDK (GA trong Agents Week 2026) cung cấp môi trường full-isolated để clone repo lớn, install deps, chạy test suite, iterate trên failure, cuối cùng mở MR — tất cả trong một session không bị evict.
Cloudflare đóng bài bằng một statement đáng chú ý: "None of this is internal-only infrastructure. Everything (besides Backstage) is a shipping product." — chính là dogfooding ở scale lớn nhất họ từng làm.
Nguồn: blog.cloudflare.com — The AI engineering stack we built internally, Orchestrating AI Code Review at scale.

