- Sau 11 tháng, Cloudflare dùng chính AI Gateway, Workers AI và MCP Portal của mình để phục vụ 93% R&D.
- Kết quả: 20M+ request/tháng qua Gateway, 241B tokens, security agent trên Kimi K2.5 rẻ hơn 77% — tiết kiệm ~$2.4M/năm.
- Đây là báo cáo chi tiết họ vừa công bố cuối Agents Week 2026.
TL;DR
Ngày 20/04/2026, Cloudflare công bố chi tiết AI engineering stack nội bộ họ đã xây trong 11 tháng — và toàn bộ chạy trên chính các sản phẩm họ bán: Cloudflare Access, AI Gateway, Workers AI, và MCP Server Portal. Trong 30 ngày gần nhất: 3,683 kỹ sư nội bộ (60% công ty, 93% R&D) gửi 47.95M request AI, trong đó 20.18M đi qua AI Gateway, tổng 241.37 tỷ token. Tất cả merge request đều được AI code-review tự động. Tiger team thực hiện có tên iMARS (Internal MCP Agent/Server Rollout Squad).

Điểm mới: 3 tầng, 1 platform
Cloudflare chia stack thành ba tầng rõ ràng, mỗi tầng tận dụng một phần của nền tảng họ ship ra thị trường:
- Platform layer — mọi request LLM đều đi qua Cloudflare Access (zero-trust auth) rồi vào một proxy Worker duy nhất, Worker này forward sang AI Gateway để định tuyến đến provider (OpenAI, Anthropic, Google) hoặc Workers AI. Không có API key nào nằm trên máy laptop của kỹ sư.
- Knowledge layer — Backstage làm knowledge graph với 2,055 service, 228 API, 1,302 database, 6,389 user. Pipeline tự động sinh file
AGENTS.mdcho ~3,900 repo để agent biết test command, convention, và rule nào áp dụng cho codebase đó. - Enforcement layer — AI Code Reviewer chạy trong GitLab CI, gồm nhiều sub-agent chuyên biệt (security, performance, code quality, codex compliance, docs, release impact). Các agent cite thẳng rule từ "Engineering Codex" — kho chuẩn engineering nội bộ được distill ra dạng agent skill.
Vì sao quan trọng
Có hai thông điệp đan xen. Thứ nhất — đây là dogfooding ở quy mô công nghiệp: Cloudflare xác nhận stack của chính họ đủ trưởng thành để chạy engineering workflow cho 6,100 nhân viên với 93% R&D adoption. Thứ hai — blog post này đóng vai trò như một reference architecture cho bất kỳ team enterprise nào đang xây AI dev platform: AI Gateway + proxy Worker làm control plane, MCP Portal + Code Mode giải quyết token-overhead, AGENTS.md + Backstage giải quyết vấn đề context.
Con số velocity đáng chú ý: MR trung bình 4 tuần tăng từ ~5,600/tuần lên 8,700+, đỉnh 10,952 trong tuần 23/03/2026 — gần gấp đôi baseline quý 4.
Những con số đáng nhớ
| Hạng mục | 30 ngày qua |
|---|---|
| User nội bộ active | 3,683 (93% R&D) |
| Tổng AI request | 47.95M |
| Request qua AI Gateway | 20.18M |
| Token qua AI Gateway | 241.37B |
| Token chạy native trên Workers AI | 51.83B |
| Team dùng agentic tools | 295 |
| Phủ AI code review | 100% repo trên CI chuẩn |
Về code reviewer (10/03 – 09/04/2026): 131,246 review trên 48,095 MR ở 5,169 repo. Median review mất 3 phút 39 giây và tốn $0.98 (P99 $4.45). Hệ thống xử 120 tỷ token với cache hit rate 85.7%. Engineer chỉ phải "break glass" bỏ qua 288 MR (0.6%) — con số Cloudflare tự hào nhất.
So sánh: Workers AI vs frontier model
Security agent nội bộ xử 7 tỷ token/ngày. Nếu chạy trên mid-tier proprietary: ~$2.4M/năm. Chạy trên Kimi K2.5 (open-source, 256k context, tool calling, vision) qua Workers AI: rẻ hơn 77%, và bắt được 15+ lỗi security xác nhận chỉ trong một codebase.
Về token overhead: GitLab MCP server gốc có 34 tool, schema ngốn ~15,000 token (7.5% của context window 200K) trước khi model bắt đầu trả lời. Code Mode tại MCP Portal gộp lại thành 2 tool (portal_codemode_search, portal_codemode_execute) — agent viết code gọi API thay vì load schema — cắt 81% token.
| Provider | Request/tháng | Share |
|---|---|---|
| Frontier Labs (OpenAI, Anthropic, Google) | 13.38M | 91.16% |
| Workers AI | 1.3M | 8.84% |
Use case thực tế
- Review mọi MR ở 5,169 repo qua GitLab CI component — median 3m39s.
- Local review cùng agent đó chạy trong OpenCode TUI qua lệnh
/fullreview. - Security scanning liên tục — 7B token/ngày trên Kimi K2.5.
- Auto-gen AGENTS.md cho 3,900 repo, kèm reviewer riêng flag khi có architectural change để buộc update.
- Codex compliance — team Network Firewall audit
rampartdbằng multi-agent consensus: công việc trước đây mất nhiều tuần giờ thành quy trình lặp lại, có cấu trúc. - MCP Portal — 13 server, 182+ tool (Backstage, GitLab, Jira, Sentry, Elasticsearch, Prometheus, Google Workspace) sau một lần OAuth qua Access.
Giới hạn & bài học thẳng thắn
Cloudflare thừa nhận AI reviewer chưa thay human review được:
- Architectural awareness — thấy diff nhưng không hiểu vì sao hệ thống thiết kế như vậy.
- Cross-system impact — flag được API contract đổi, nhưng không verify được downstream consumer đã update chưa.
- Race conditions tinh vi — spot được missing lock, nhưng không cover hết mọi đường deadlock.
- Cost theo kích thước diff — refactor 500 file trigger 7 frontier model call song song, tốn tiền thật.
Bài học vận hành đáng lưu:
- Giá trị thực của prompt engineering nằm ở "what NOT to do" — ranh giới rõ giúp tránh "firehose of speculative warnings".
- Thêm log heartbeat
"Model is thinking…"mỗi 30s đã gần như xoá bỏ việc user hủy CI job giữa chừng. - Pass diff qua
stdinchứ không qua CLI argument (LinuxE2BIG/ARG_MAX). - Dùng JSONL cho log thay vì JSON — log partial vẫn parse được khi child process crash.
Bước tiếp theo
Cloudflare đang làm background agents: spin up theo lệnh, có đầy đủ tool giống local (MCP portal, git, test runner), chạy entirely trong cloud. Orchestration dùng Durable Objects + Agents SDK, delegate sang Sandbox SDK container (GA tuần Agents Week) cho session clone repo → cài deps → chạy test → mở MR trong một phiên dài.
Song song, Bring Your Own Model lên Workers AI đang trong diện partner testing — dùng Replicate Cog để containerize, customer push container bằng wrangler, cold-start nhanh hơn nhờ GPU snapshotting. Beta Shared Dictionaries (delta compression cho bundle JS) ra 30/04/2026 — vì traffic agentic đã chiếm ~10% request của Cloudflare.
Thông điệp xuyên suốt: khi bạn ship một platform đủ tốt, nó nên chạy được chính công việc của đội engineering xây ra nó.
Nguồn: blog.cloudflare.com, AI Code Review deep-dive, AI Platform for agents, Agents Week 2026 recap.

