Cloudflare vừa tiết lộ stack AI nội bộ: 93% kỹ sư R&D dùng mỗi ngày, 241 tỷ token/tháng qua AI Gateway

TL;DR

Ngày 20/04/2026, Cloudflare đăng hai bài blog dài chi tiết cách đội Dev Productivity nội bộ đưa AI coding từ vài đội pilot lên toàn công ty trong 11 tháng. Kết quả: 93% adoption trong R&D (3,683 / ~6,100 nhân sự, 60% toàn Cloudflare), 241.37 tỷ token/tháng qua AI Gateway, 100% merge request trên CI chuẩn đều được AI review. Năng suất MR trung bình 4 tuần tăng từ ~5,600 lên hơn 8,700 MR/tuần. Toàn bộ stack chạy trên sản phẩm Cloudflare tự bán — không gọi service ngoài.

Cloudflare internal AI engineering stack banner

Có gì mới

Bài 1 — "The AI engineering stack we built internally" — tổng quan toàn bộ nền tảng AI nội bộ: AI Gateway làm router + observability, Workers AI chạy model mã nguồn mở, 13 MCP server production expose 182+ tool nội bộ cho agent, Backstage giữ knowledge graph 2,055 service / 16K+ entity, và Dynamic Workers cô lập sandbox chạy code sinh bởi AI.

Bài 2 — "Orchestrating AI Code Review at scale" — đào sâu hệ thống review. Thay vì một prompt khổng lồ, Cloudflare chia review thành tối đa 7 agent chuyên biệt (security, code quality, performance, documentation, release management, Codex compliance, AGENTS.md) + 1 Review Coordinator tổng hợp. Coordinator đọc code gốc khi nghi ngờ, dedupe finding, loại false positive trước khi comment lên MR.

Chỉ số kỹ thuật

Multi-agent AI code review architecture

Chỉ số	Giá trị (30 ngày)
R&D adoption	93% (3,683 user / 295 team)
Token qua AI Gateway	241.37B / tháng
Request AI Gateway	20.18M / tháng
MR được review	48,095 MR · 131,246 lượt chạy
Thời gian review trung vị	3 phút 39 giây
Chi phí trung bình/review	$1.19
Prompt cache hit rate	85.7%
Token chỉ riêng code review	120B / tháng
Break-glass override	288 lần (0.6%)

Chiến lược tier model

Stack phân tier để tối ưu chi phí vs năng lực:

Top-tier (Claude Opus 4.7, GPT-5.4): chỉ dành cho Coordinator — nơi phán đoán phức tạp nhất.
Standard-tier (Claude Sonnet 4.6, GPT-5.3 Codex): gánh các reviewer nặng — security, code quality, performance.
Lightweight (Kimi K2.5): task text-heavy — documentation, release notes, AGENTS.md.

Risk tiering scale chi phí theo quy mô thay đổi: Trivial (≤10 dòng, 2 agent, $0.20) → Lite (≤100 dòng, 4 agent, $0.67) → Full (>100 dòng, 7+ agent, $1.68). File nhạy cảm bảo mật luôn full review bất kể kích thước.

So với cách làm thông thường

Hầu hết enterprise rollout AI coding hiện nay bolt vào IDE vendor (Copilot Enterprise, Cursor Business). Cloudflare đi hướng ngược — orchestration CI-native, không bắt dev đổi IDE, code không rời infra Cloudflare, MCP server expose trực tiếp tool nội bộ (Backstage, deploy status, service ownership). Control plane là một Cloudflare Worker — thay mapping agent↔model bằng update config, không cần deploy lại.

Chống lỗi

Circuit breaker theo dõi health từng model (healthy / degraded / open). Khi một tier fail, hệ thống fallback theo chuỗi cùng họ model trước (Opus 4.7 → Opus 4.6) rồi mới chuyển sang nhà cung cấp khác. Error classification tách retryable (rate limit) với unrecoverable (auth, context overflow) để quyết định retry hay không.

Use case thực tế

Cloudflare AI Code Review deep-dive banner

Review mọi MR tự động — finding phân severity Critical / Warning / Suggestion / Optional, post lên MR dưới dạng comment có cấu trúc.
AGENTS.md tự động sinh trên ~3,900 repo — cung cấp context (test command, convention, boundary) cho agent. File stale bị AI Reviewer flag lại.
MCP agent tooling — dev hỏi agent qua 182+ tool nội bộ: tra service owner, deploy gần nhất, on-call, v.v.
Sandbox chạy code sinh bởi AI trong Dynamic Workers — an toàn khi LLM ảo giác lệnh shell hoặc viết migration sai.

Ai hưởng lợi nhiều nhất? Các org kỹ thuật lớn có monorepo / polyrepo, yêu cầu tuân thủ nghiêm, muốn AI nhưng không gửi source ra cloud bên thứ ba.

Hạn chế & chi phí

Đây là stack nội bộ — Cloudflare không đóng gói bán thành một sản phẩm. Nhưng các component (AI Gateway, Workers AI, Sandbox SDK, Workers) đều public trên nền tảng.
Break-glass override 0.6% — nghe nhỏ nhưng là tín hiệu AI vẫn tạo friction thỉnh thoảng (false positive hoặc block đúng lúc ship gấp).
Chi phí review thô: $1.19 × 131K run ≈ $156K/tháng, trước khi prompt cache (hit rate 85.7%) cắt xuống mức "five-figure USD mỗi tháng" theo Cloudflare.
Rollout chưa phủ 100% repo legacy — vẫn đang mở rộng.

Cloudflare nói kế hoạch gần là: mở rộng số reviewer chuyên biệt, tinh chỉnh Coordinator prompt, đẩy thêm traffic sang Workers AI để giảm chi phí token top-tier, và tiếp tục trưởng thành hệ MCP server. Dự án bắt đầu từ một tiger team iMARS (Internal MCP Agent/Server Rollout Squad), sau đó handover cho Dev Productivity team — team đang sở hữu CI/CD, build system, automation nội bộ. Data cutoff cho numbers ở trên là 15/04/2026.

Nguồn: blog.cloudflare.com — internal AI engineering stack, blog.cloudflare.com — orchestrating AI code review, tweet thread của Rajesh BH.

Cloudflare vừa tiết lộ stack AI nội bộ: 93% kỹ sư R&D dùng mỗi ngày, 241 tỷ token/tháng qua AI Gateway

TL;DR

Có gì mới

Chỉ số kỹ thuật

Chiến lược tier model

So với cách làm thông thường

Chống lỗi

Use case thực tế

Hạn chế & chi phí

Tiếp theo

Tiếp tục lướt

Gitnuro: Git client multiplatform viết bằng Compose + JGit, FOSS thuần, không Electron

termDRAW: vẽ sơ đồ ASCII ngay trong terminal để prompt agent đỡ tốn token

chartli: Pipe Numbers, Get Charts — A Zero-Setup Terminal Charting CLI

Orca IDE v1.3.18: Bình luận trực tiếp lên diff, gửi cả review cho AI agent trong một click

One Cache to Rule Them All: Durable Objects Kill the Thundering Herd