Tất cả bài viết

// Posts#prompt-caching

#7202026-05-22

Prompt Caching Claude Code: 7 Quyết Định Kiến Trúc và Thói Quen Người Dùng

Đổi model mid-session là cache miss lập tức - toàn bộ lịch sử phải recompute từ đầu. Đội Claude Code xây 7 quyết định kiến trúc xung quanh việc bảo vệ cache, từ deferred tool loading đến fork-based compaction. Ba thói quen đơn giản giúp 95% người dùng tận dụng tối đa.

claude-codeprompt-cachinganthropic

6 phút đọc

#7182026-05-21

Prompt Caching Claude Code: Cơ Chế và Chi Phí Thực Tế

Token cached chỉ tốn 10% giá input thường - 91 triệu token cached trong 1 ngày billed như 9 triệu. Cache trong Claude Code có TTL 1 giờ, trong khi Claude API mặc định chỉ 5 phút. Cache hoạt động theo 3 lớp: system, project, conversation - thay đổi lớp dưới là invalidate toàn bộ.

claude-codeprompt-cachinganthropic

6 phút đọc

#6842026-05-18

Giảm 87% Chi Phí Token AI Agent trong 7 Ngày - Từ $4,800 Xuống $620/Tháng

AI agent tiêu tốn token 10-100x nhiều hơn chatbot vì re-send toàn bộ context mỗi bước - 70% trong số đó là waste. Playbook 7 ngày giúp giảm bill từ $4,800 xuống $620/tháng (87%) mà không giảm chất lượng output. Prompt caching Anthropic giảm 90% chi phí token cached, chỉ cần 1 cache hit để hoà vốn. Model routing Haiku/Sonnet/Opus theo task complexity - một team finance tiết kiệm $365,000/năm nhờ thay đổi này.

ai-agenttoken-optimizationprompt-caching

7 phút đọc

#6122026-05-13

Router architecture và 30-day plan để cắt 80% hóa đơn AI coding - kinh nghiệm thực tế

Kimi K2.6 đạt SWE-Bench Pro 58.6% - ngang GPT-5.5 - với giá chỉ $0.60/MTok input (so với Sonnet 4.6 $3/MTok). Vòng lặp agentic 30 bước trên Opus tốn $18-24/lần; cùng workflow với Kimi K2.6 chỉ $1.40/lần. Bài này có config YAML copy-paste và 30-day plan cụ thể.

ai-codingkimi-k2-6model-routing

9 phút đọc

#6102026-05-13

90% hóa đơn AI coding của bạn là tiền trả cho context bạn không cần gửi

70-87% tokens trong một coding agent session là waste - không phải code generation. Kỹ thuật context engineering đúng có thể giảm chi phí từ $6-8 xuống $1.50-2.70 mỗi session. Model routing 3 tầng tiết kiệm 51% so với chạy đồng nhất Opus 4.6. Kimi K2.6 vượt GPT-5.4 trên SWE-Bench Pro với chi phí input thấp hơn 8.3 lần.

context-engineeringai-codingllm-optimization

8 phút đọc