Cloudflare xây AI engineering stack nội bộ trên chính platform họ ship: 20M requests, 241B tokens, 3,683 user

← quay lại timelineArticle thread

Cloudflare xây AI engineering stack nội bộ trên chính platform họ ship: 20M requests, 241B tokens, 3,683 user

D. Chu

@donniechublog·21 Apr

21 Apr 2026·7 phút đọc

Highlights

Sau 11 tháng, Cloudflare dùng chính AI Gateway, Workers AI và MCP Portal của mình để phục vụ 93% R&D.
Kết quả: 20M+ request/tháng qua Gateway, 241B tokens, security agent trên Kimi K2.5 rẻ hơn 77% — tiết kiệm ~$2.4M/năm.
Đây là báo cáo chi tiết họ vừa công bố cuối Agents Week 2026.

TL;DR

Ngày 20/04/2026, Cloudflare công bố chi tiết AI engineering stack nội bộ họ đã xây trong 11 tháng — và toàn bộ chạy trên chính các sản phẩm họ bán: Cloudflare Access, AI Gateway, Workers AI, và MCP Server Portal. Trong 30 ngày gần nhất: 3,683 kỹ sư nội bộ (60% công ty, 93% R&D) gửi 47.95M request AI, trong đó 20.18M đi qua AI Gateway, tổng 241.37 tỷ token. Tất cả merge request đều được AI code-review tự động. Tiger team thực hiện có tên iMARS (Internal MCP Agent/Server Rollout Squad).

Cloudflare internal AI engineering stack hero banner

Điểm mới: 3 tầng, 1 platform

Cloudflare chia stack thành ba tầng rõ ràng, mỗi tầng tận dụng một phần của nền tảng họ ship ra thị trường:

Platform layer — mọi request LLM đều đi qua Cloudflare Access (zero-trust auth) rồi vào một proxy Worker duy nhất, Worker này forward sang AI Gateway để định tuyến đến provider (OpenAI, Anthropic, Google) hoặc Workers AI. Không có API key nào nằm trên máy laptop của kỹ sư.
Knowledge layer — Backstage làm knowledge graph với 2,055 service, 228 API, 1,302 database, 6,389 user. Pipeline tự động sinh file AGENTS.md cho ~3,900 repo để agent biết test command, convention, và rule nào áp dụng cho codebase đó.
Enforcement layer — AI Code Reviewer chạy trong GitLab CI, gồm nhiều sub-agent chuyên biệt (security, performance, code quality, codex compliance, docs, release impact). Các agent cite thẳng rule từ "Engineering Codex" — kho chuẩn engineering nội bộ được distill ra dạng agent skill.

Vì sao quan trọng

Có hai thông điệp đan xen. Thứ nhất — đây là dogfooding ở quy mô công nghiệp: Cloudflare xác nhận stack của chính họ đủ trưởng thành để chạy engineering workflow cho 6,100 nhân viên với 93% R&D adoption. Thứ hai — blog post này đóng vai trò như một reference architecture cho bất kỳ team enterprise nào đang xây AI dev platform: AI Gateway + proxy Worker làm control plane, MCP Portal + Code Mode giải quyết token-overhead, AGENTS.md + Backstage giải quyết vấn đề context.

Con số velocity đáng chú ý: MR trung bình 4 tuần tăng từ ~5,600/tuần lên 8,700+, đỉnh 10,952 trong tuần 23/03/2026 — gần gấp đôi baseline quý 4.

Những con số đáng nhớ

Hạng mục	30 ngày qua
User nội bộ active	3,683 (93% R&D)
Tổng AI request	47.95M
Request qua AI Gateway	20.18M
Token qua AI Gateway	241.37B
Token chạy native trên Workers AI	51.83B
Team dùng agentic tools	295
Phủ AI code review	100% repo trên CI chuẩn

Về code reviewer (10/03 – 09/04/2026): 131,246 review trên 48,095 MR ở 5,169 repo. Median review mất 3 phút 39 giây và tốn $0.98 (P99 $4.45). Hệ thống xử 120 tỷ token với cache hit rate 85.7%. Engineer chỉ phải "break glass" bỏ qua 288 MR (0.6%) — con số Cloudflare tự hào nhất.

So sánh: Workers AI vs frontier model

Security agent nội bộ xử 7 tỷ token/ngày. Nếu chạy trên mid-tier proprietary: ~$2.4M/năm. Chạy trên Kimi K2.5 (open-source, 256k context, tool calling, vision) qua Workers AI: rẻ hơn 77%, và bắt được 15+ lỗi security xác nhận chỉ trong một codebase.

Về token overhead: GitLab MCP server gốc có 34 tool, schema ngốn ~15,000 token (7.5% của context window 200K) trước khi model bắt đầu trả lời. Code Mode tại MCP Portal gộp lại thành 2 tool (portal_codemode_search, portal_codemode_execute) — agent viết code gọi API thay vì load schema — cắt 81% token.

Provider	Request/tháng	Share
Frontier Labs (OpenAI, Anthropic, Google)	13.38M	91.16%
Workers AI	1.3M	8.84%

Use case thực tế

Review mọi MR ở 5,169 repo qua GitLab CI component — median 3m39s.
Local review cùng agent đó chạy trong OpenCode TUI qua lệnh /fullreview.
Security scanning liên tục — 7B token/ngày trên Kimi K2.5.
Auto-gen AGENTS.md cho 3,900 repo, kèm reviewer riêng flag khi có architectural change để buộc update.
Codex compliance — team Network Firewall audit rampartd bằng multi-agent consensus: công việc trước đây mất nhiều tuần giờ thành quy trình lặp lại, có cấu trúc.
MCP Portal — 13 server, 182+ tool (Backstage, GitLab, Jira, Sentry, Elasticsearch, Prometheus, Google Workspace) sau một lần OAuth qua Access.

Giới hạn & bài học thẳng thắn

Cloudflare thừa nhận AI reviewer chưa thay human review được:

Architectural awareness — thấy diff nhưng không hiểu vì sao hệ thống thiết kế như vậy.
Cross-system impact — flag được API contract đổi, nhưng không verify được downstream consumer đã update chưa.
Race conditions tinh vi — spot được missing lock, nhưng không cover hết mọi đường deadlock.
Cost theo kích thước diff — refactor 500 file trigger 7 frontier model call song song, tốn tiền thật.

Bài học vận hành đáng lưu:

Giá trị thực của prompt engineering nằm ở "what NOT to do" — ranh giới rõ giúp tránh "firehose of speculative warnings".
Thêm log heartbeat "Model is thinking…" mỗi 30s đã gần như xoá bỏ việc user hủy CI job giữa chừng.
Pass diff qua stdin chứ không qua CLI argument (Linux E2BIG / ARG_MAX).
Dùng JSONL cho log thay vì JSON — log partial vẫn parse được khi child process crash.

Bước tiếp theo

Cloudflare đang làm background agents: spin up theo lệnh, có đầy đủ tool giống local (MCP portal, git, test runner), chạy entirely trong cloud. Orchestration dùng Durable Objects + Agents SDK, delegate sang Sandbox SDK container (GA tuần Agents Week) cho session clone repo → cài deps → chạy test → mở MR trong một phiên dài.

Song song, Bring Your Own Model lên Workers AI đang trong diện partner testing — dùng Replicate Cog để containerize, customer push container bằng wrangler, cold-start nhanh hơn nhờ GPU snapshotting. Beta Shared Dictionaries (delta compression cho bundle JS) ra 30/04/2026 — vì traffic agentic đã chiếm ~10% request của Cloudflare.

Thông điệp xuyên suốt: khi bạn ship một platform đủ tốt, nó nên chạy được chính công việc của đội engineering xây ra nó.

Nguồn: blog.cloudflare.com, AI Code Review deep-dive, AI Platform for agents, Agents Week 2026 recap.

Cloudflare xây AI engineering stack nội bộ trên chính platform họ ship: 20M requests, 241B tokens, 3,683 user

TL;DR

Điểm mới: 3 tầng, 1 platform

Vì sao quan trọng

Những con số đáng nhớ

So sánh: Workers AI vs frontier model

Use case thực tế

Giới hạn & bài học thẳng thắn

Bước tiếp theo

Tiếp tục lướt

One Cache to Rule Them All: Durable Objects Kill the Thundering Herd

Claude Context: AI coding agent cuối cùng cũng hiểu codebase lớn của bạn

Ghost OS: bộ não "mắt và tay" cho AI agent trên macOS — không cần screenshot

Bạn có thể extend GitHub Copilot CLI với bất kỳ UI nào bạn muốn — đây là cách

GitNexus: Knowledge graph engine biến codebase thành bản đồ cho AI agent