TL;DR

Cloudflare vừa release Cloudflare API MCP server chạy theo mô hình Code Mode: thay vì biến mỗi endpoint thành một tool riêng, server chỉ expose hai hàm — search() để query OpenAPI spec và execute() để chạy JavaScript sinh bởi LLM trong V8 isolate. Kết quả: 2.594 endpoint (DNS, Workers, R2, Zero Trust, WAF…) chỉ tốn ~1.000 tokens context, giảm 99.9% so với 1.17 triệu tokens của MCP truyền thống. Đây là bước ngoặt cho cách LLM agent nói chuyện với API lớn.

Có gì mới

Đăng ngày 2026-02-20 trên blog Cloudflare và được InfoQ đưa tin rộng ngày 2026-04-16, Code Mode MCP giải một bài toán kinh điển của Model Context Protocol: agent càng cần nhiều tool thì context càng bị "ăn" tới mức không còn chỗ cho task chính. Nếu expose toàn bộ 2.594 endpoint của Cloudflare dưới dạng native tool — mỗi tool một schema — tổng chi phí sẽ tới ~1.17 triệu tokens, lớn hơn context window của hầu hết foundation model hiện nay.

Cách tiếp cận mới của Cloudflare: convert toàn bộ MCP tool thành một TypeScript API có type, rồi để LLM viết code gọi API đó. Server chỉ giữ hai tool — search()execute() — tổng footprint cố định ~1.000 tokens, không phụ thuộc số lượng endpoint.

Vì sao nó quan trọng

Luuk Hofman — solutions engineer tại Cloudflare — tóm tắt gọn insight cốt lõi: "LLMs are better at writing code to call MCP, than at calling MCP directly." Lý do: mô hình đã "nuốt" hàng triệu dòng code thật trong training set, nhưng chỉ thấy tập ví dụ tool-call tương đối nhỏ và mang tính contrived.

Hệ quả thực tế: khi agent cần chain nhiều call (phân trang, điều kiện, gọi nối tiếp), cách tool-call truyền thống phải đẩy output của mỗi bước trở lại mạng neural rồi copy sang input của bước sau — tốn thời gian, năng lượng và token. Viết code một lần rồi chạy trong sandbox cắt toàn bộ round-trip đó, chỉ trả về kết quả cuối qua console.log().

Số liệu kỹ thuật

ApproachTools exposedToken cost
Native MCP (full schemas)2.594~1.170.000
Native MCP (required params only)2.594~244.000
Code Mode2~1.000

Code chạy trong Dynamic Worker Loader — V8 isolate Cloudflare đã dùng từ ngày đầu platform Workers:

  • Cold start: vài millisecond (không phải container vài trăm ms).
  • Memory: vài MB.
  • ~100× nhanh hơn10–100× tiết kiệm bộ nhớ hơn container truyền thống.
  • Không giới hạn concurrent sandbox toàn cầu — cùng hạ tầng scale tới hàng triệu request/giây.

Mô hình bảo mật: sandbox + bindings + credential injection

Code do LLM sinh chạy trong V8 isolate "totally isolated from the Internet":

  • Không có file system, không env var, không cách nào leak secret qua prompt injection.
  • Outbound fetchconnect bị disable mặc định (globalOutbound: null).
  • Truy cập MCP server qua Workers bindings — object sống, interface JS rõ ràng — thay vì network filtering mờ.
  • Credential injection: supervisor giữ token, inject vào request trên đường ra. Agent không bao giờ nhìn thấy API key → không thể leak thứ nó không có.

Use cases thực tế

1. Multi-API orchestration. Agent có thể kiểm tra ruleset hiện có trên một zone, rồi update sensitivity của DDoS (ddos_l7) và WAF (http_request_firewall_managed) trong một execute cycle — toàn bộ flow "search spec → inspect schema → list ruleset → update" gói trong 4 tool call.

2. Consumer-scale AI platform. Zite build app platform chat-to-app: LLM viết TypeScript đằng sau, kết nối Stripe, Airtable, Google Calendar, run backend logic, user không thấy một dòng code nào. Theo trích dẫn từ team Zite: "Zite now services millions of execution requests daily thanks to Dynamic Workers."

3. Agentic file manipulation. Thư viện @cloudflare/shell cho agent một virtual filesystem (read, write, search, diff, glob, JSON query/update) backed by SQLite + R2. Batch write transactional — lỗi một bước, các bước trước rollback tự động.

Giới hạn & pricing

  • JavaScript only — chưa có Python/Rust cho code execution.
  • needsApproval (tool approval flow) chưa hỗ trợ bên trong Code Mode sandbox; tool cần approval phải dùng AI SDK tool-calling chuẩn.
  • Chất lượng code phụ thuộc prompt engineering và năng lực model.
  • Yêu cầu Cloudflare Workers environment cho DynamicWorkerExecutor.

Pricing: Dynamic Worker loaded $0.002 per unique Worker per day + CPU time + invocations thường. Với Code Mode mỗi Worker là one-off nên thực tế tính theo lần load. Charge này đang được miễn trong giai đoạn beta. Inference cost để sinh code thường lớn hơn nhiều nên chi phí sandbox gần như không đáng kể.

So với Anthropic Code Execution với MCP

Anthropic độc lập khám phá pattern tương tự trong post Code Execution with MCP. Khác biệt chính của Cloudflare:

  • Server-side Code Mode — không cần sửa agent side; bất kỳ MCP client nào cũng chỉ thấy 2 tool.
  • Fixed ~1.000 token footprint bất kể API lớn cỡ nào.
  • Progressive discovery (search() trước, execute() sau) built-in.
  • Sandbox là V8 isolate production-grade, đã scale toàn cầu 8 năm.

Timeline & what's next

  • 2025-09: Cloudflare giới thiệu khái niệm Code Mode + Dynamic Worker Loader (experimental).
  • 2026-02-20: Launch Cloudflare API MCP server công khai.
  • 2026-03-24: Dynamic Worker Loader API vào open beta cho mọi paid Workers user.
  • 2026-04-16: InfoQ viết bài, cộng đồng dev chú ý rộng.

Next: Cloudflare đang xây first-class Code Mode integration cho tất cả MCP server của bạn thông qua MCP Server Portals — nhiều MCP server đứng sau một gateway, unified auth, cùng footprint ~1.000 tokens dù có bao nhiêu service. Approval flow bên trong Code Mode cũng trong roadmap.

Nguồn: Cloudflare blog — Code Mode MCP, Cloudflare blog — Code Mode, Sandboxing AI agents, 100x faster, InfoQ, Cloudflare Agents docs — Codemode.