Giảm 87% Chi Phí Token AI Agent trong 7 Ngày - Từ $4,800 Xuống $620/Tháng

TL;DR

AI agent không tiêu token như chatbot. Mỗi bước reasoning re-send toàn bộ lịch sử hội thoại, system prompt, và tool definitions - bill tăng phi tuyến. Session bắt đầu với 5,000 tokens có thể lên 200,000 tokens/call ở turn 50.

Playbook 7 ngày dưới đây đưa bill từ $4,800/tháng xuống $620/tháng (giảm 87%) mà không cần đổi model hay viết lại framework.

Giảm 87% chi phí token AI agent trong 7 ngày

Vấn đề gốc rễ: Agent không phải chatbot

Chatbot gửi 1 tin nhắn, nhận 1 response, xong. Agent chạy vòng lặp reasoning với tool calls, file reads, validations. Mỗi bước gửi toàn bộ context tích lũy lên LLM - đến bước 20, bạn trả tiền cho cùng system prompt 20 lần.

Số liệu cụ thể trên Claude Sonnet 4.6: agent 5-step tốn $0.158 (45,700 input tokens), chatbot 1-shot cùng task chỉ tốn $0.049 (3.2x đắt hơn). Ở 50 bước: multiplier vượt 30x. Phân tích 42 agent runs cho thấy 70% tokens là waste. Re-sent context chiếm 62% tổng bill, tool definitions 14%, actual reasoning output chỉ 11%.

Ngày 1-2: Đo rồi mới Cache

Ngày 1 - Audit: Không tối ưu cái không đo được. Wire vào Helicone (proxy, free 10K req/tháng), Langfuse (open source MIT, 26M SDK installs/tháng), hoặc Portkey (250+ providers). Track: cost per session, top 5 functions đắt nhất, top 5 users đắt nhất. Một team phát hiện 47% bill đến từ deprecated function được gọi bởi cron job 15 phút/lần - tắt cron, bill giảm 47% ngay lập tức.

Ngày 2 - Prompt Caching: Đây là đòn bẩy lớn nhất. Anthropic cho giảm 90% trên cache reads. Cache write lần đầu tốn +25% (1.25x giá gốc, TTL 5 phút), break-even chỉ sau 1 hit. System prompt 5,000 tokens gửi 200 lần: không cache tốn 1M tokens, có cache chỉ 105,000 tokens - giảm 89.5%.

Thêm "cache_control": {"type": "ephemeral"} vào system prompt content block là đủ. Lưu ý: content động (timestamp, tên user) phải đặt cuối prompt, không đặt đầu - nếu không cache hit rate = 0. Minimum: 1,024 tokens cho Sonnet, 4,096 tokens cho Haiku và Opus.

Ngày 3-4: Compress Context và Route Model

Ngày 3 - Compress: Một agent trước tối ưu gửi ~14,500 tokens/turn (3,200 tool defs + 5,800 telemetry + 2,400 state + 3,100 retrieval). Sau khi nén: 850 tokens/turn - giảm 94%, output quality giữ trong 2% trên 50-example eval. Kỹ thuật: truncate tool results (trả path + 500 chars đầu thay vì full file), summarized scratchpad (200-word summary thay cho 30 tool calls), sliding window giữ N lượt gần nhất.

Ngày 4 - Model Routing: Không phải mọi task cần Opus.

Model routing Haiku Sonnet Opus theo task complexity

Haiku 4.5 ($1/MTok) - classify, retrieve, transform. ~60% tasks.
Sonnet 4.6 ($3/MTok) - code gen, analysis, mid-complexity. ~30% tasks.
Opus 4.6 ($15/MTok) - architecture, novel reasoning. ~10% tasks.

Workflow 80% Haiku + 20% Opus tốn khoảng 12% so với all-Opus. KanseiLink chuyển high-volume tasks sang Haiku+batch: $54 → $9/workflow (83%). Team finance: $365,000 tiết kiệm/năm. Pattern advisor (Haiku/Sonnet worker, Opus reviewer mỗi N turns): giảm 11% cost, tăng 2% quality.

Ngày 5-7: Chặn Loop, Validate Cache, Khóa Alerts

Ngày 5 - Retry loops: Tháng 4/2026, regression trong Claude Code đẩy API retry rates tăng 80x. Phân tích 6,852 sessions chỉ ra 4 pattern phổ biến: broken tool bị retry vô hạn, harness swallow errors không rõ ràng, agent loop produce same output, thay đổi upstream behavior bị interpret sai. Fix: MAX_STEPS=10 hard bound, structured error results, idempotency keys trên tool calls, abort nếu 3 lượt không tạo artifact mới. Kết quả: giảm 30-60% trên tail cost distribution.

Ngày 6 - Validate cache: Kiểm tra hit rate per route, không phải tổng. Target: stable routes 70-90%, partially stable 30-50%. Dưới 30% = cấu trúc sai. Debug: prefix đủ dài chưa? Có volatile field ở đầu không? TTL có đủ cho traffic pattern? Run audit này hàng tuần.

Ngày 7 - Alerts: Slack cho 1-2x normal spend (điều tra trong giờ làm), PagerDuty cho 5x+ spike (interrupt ngay), email digest hàng tuần. Alert thêm: 1 user chiếm >N% total daily spend (thường là script bị quên). Không có alerts - khoản tiết kiệm sẽ trôi dần khi team ship feature mới.

Kết

Token bill của bạn không phải vấn đề model - đây là vấn đề kỹ thuật. Sau 7 ngày: $4,800 → $620/tháng, cache hit rate 27% → 78%, annual savings ~$50,000. Pricing wars đang chậm lại - team nào xây cost discipline năm nay sẽ còn profitable khi giá API ngừng giảm.

via Himanshu trên X | Anthropic Prompt Caching Docs | LeanOps: Agentic AI Cost Runaway