// Posts#token-optimization
Prompt Caching Claude Code: 7 Quyết Định Kiến Trúc và Thói Quen Người Dùng
#7202026-05-22

Prompt Caching Claude Code: 7 Quyết Định Kiến Trúc và Thói Quen Người Dùng

Đổi model mid-session là cache miss lập tức - toàn bộ lịch sử phải recompute từ đầu. Đội Claude Code xây 7 quyết định kiến trúc xung quanh việc bảo vệ cache, từ deferred tool loading đến fork-based compaction. Ba thói quen đơn giản giúp 95% người dùng tận dụng tối đa.

claude-codeprompt-cachinganthropic
6 phút đọc
Prompt Caching Claude Code: Cơ Chế và Chi Phí Thực Tế
#7182026-05-21

Prompt Caching Claude Code: Cơ Chế và Chi Phí Thực Tế

Token cached chỉ tốn 10% giá input thường - 91 triệu token cached trong 1 ngày billed như 9 triệu. Cache trong Claude Code có TTL 1 giờ, trong khi Claude API mặc định chỉ 5 phút. Cache hoạt động theo 3 lớp: system, project, conversation - thay đổi lớp dưới là invalidate toàn bộ.

claude-codeprompt-cachinganthropic
6 phút đọc
Giảm 87% Chi Phí Token AI Agent trong 7 Ngày - Từ $4,800 Xuống $620/Tháng
#6842026-05-18

Giảm 87% Chi Phí Token AI Agent trong 7 Ngày - Từ $4,800 Xuống $620/Tháng

AI agent tiêu tốn token 10-100x nhiều hơn chatbot vì re-send toàn bộ context mỗi bước - 70% trong số đó là waste. Playbook 7 ngày giúp giảm bill từ $4,800 xuống $620/tháng (87%) mà không giảm chất lượng output. Prompt caching Anthropic giảm 90% chi phí token cached, chỉ cần 1 cache hit để hoà vốn. Model routing Haiku/Sonnet/Opus theo task complexity - một team finance tiết kiệm $365,000/năm nhờ thay đổi này.

ai-agenttoken-optimizationprompt-caching
7 phút đọc
Dùng Claude đúng cách - Phần 2: 8 kỹ thuật nâng cao và tối ưu chi phí
#6722026-05-18

Dùng Claude đúng cách - Phần 2: 8 kỹ thuật nâng cao và tối ưu chi phí

8 kỹ thuật nâng cao sau khi đã thiết lập workspace: clone giọng văn bằng 3-5 mẫu text, dùng Claude như đối thủ tranh luận để phá vỡ giả định, bật Extended Thinking cho bài toán phức tạp, và giảm 40-60% token usage chỉ bằng một instruction.

claudeextended-thinkingprompt-engineering
7 phút đọc
Đang đốt 80% context window? 10 tool giúp bạn cắt hóa đơn Claude Code xuống còn một phần nhỏ
#6662026-05-18

Đang đốt 80% context window? 10 tool giúp bạn cắt hóa đơn Claude Code xuống còn một phần nhỏ

Code Review Graph giảm token tới 49x trên monorepo lớn, Token Savior đạt điểm 100% benchmark với -77% active tokens/task. Claude Token Optimizer kéo 11,000 tokens startup xuống còn 1,300 tokens. Claude Token Efficient giảm 63% output chỉ bằng một file CLAUDE.md.

claude-codetoken-optimizationdeveloper-tools
7 phút đọc
Tại sao hóa đơn AI coding của bạn đang bùng nổ - và 5 cái bẫy token bạn đang mắc phải
#6112026-05-13

Tại sao hóa đơn AI coding của bạn đang bùng nổ - và 5 cái bẫy token bạn đang mắc phải

Vibe coder đang ship hàng ngày có thể đốt $2,000-5,000/tháng mà không nhận ra phần lớn là lãng phí thuần túy. Bài đầu trong series 2 phần phân tích chi tiết kinh tế token và 5 cái bẫy phổ biến nhất. Token caching từ Anthropic có thể giảm 90% chi phí input - nhưng 95% vibe coder chưa bật lên.

ai-codingtoken-optimizationclaude-code
7 phút đọc
Claude Context: MCP Plugin giúp Claude Code tiết kiệm 39% token bằng semantic search
#5782026-05-09

Claude Context: MCP Plugin giúp Claude Code tiết kiệm 39% token bằng semantic search

Claude Context là MCP plugin open-source của Zilliz, thay thế grep-only bằng hybrid BM25 + vector search trên toàn codebase. Benchmark chính thức: 44.4K token so với 73.4K (-39.4%) và 5.3 tool calls so với 8.3 (-36.3%). Monorepo 12,000 file được index trong 3-6 phút, hỗ trợ OpenAI, VoyageAI, Ollama và Gemini. MIT license, self-host hoàn toàn được với Milvus + Ollama, không cần trả thêm gì ngoài ops cost.

claude-codemcpcontext-engineering
6 phút đọc
10 Repos Giảm Token Bill AI Agent Tới 80% - Không Ai Kiểm Tra Cái Đang Gửi Đi
#5612026-05-07

10 Repos Giảm Token Bill AI Agent Tới 80% - Không Ai Kiểm Tra Cái Đang Gửi Đi

Hầu hết AI agent tốn kém không phải vì model đắt, mà vì không ai kiểm soát lượng token gửi đi. 10 open-source repos này giải quyết vấn đề đó ở 7 layer khác nhau. LLMLingua nén prompt tới 20x trước khi gọi API với gần như không mất chất lượng. mem0 cô đọng 10,000 token conversation history xuống còn 200 token per agent. LiteLLM route tác vụ đơn giản sang Haiku thay vì Sonnet - tiết kiệm 20x chi phí trên cùng một output.

ai-agentllmtoken-optimization
7 phút đọc
5 Bước Dùng Claude Không Bị Sớm Hết Limit
#4422026-05-01

5 Bước Dùng Claude Không Bị Sớm Hết Limit

Claude Pro giới hạn ~44,000 token mỗi 5 tiếng, Max 20x chỉ có 200-800 prompt/window. Chỉ cần 5 thay đổi nhỏ trong workflow, bạn có thể tiết kiệm 60-70% token mà không cần nâng cấp plan. Chiến lược "escalate model" - dùng Haiku brainstorm rồi mới chuyển Opus - tiết kiệm ~67% chi phí mỗi tác vụ. Từ Plan Mode trong Claude Code đến bộ nhớ markdown, đây là framework đã được kiểm chứng qua thực tế.

claude-aiai-productivityclaude-code
7 phút đọc
7 bẫy tiêu token ẩn của Claude Code - và cách lấy lại 3 lần hiệu suất
#1352026-01-23

7 bẫy tiêu token ẩn của Claude Code - và cách lấy lại 3 lần hiệu suất

70% token trong mỗi phiên Claude Code bị ăn bởi overhead, không phải công việc thực sự. Hai lỗi cache bị người dùng tự phát hiện qua reverse-engineering đã làm chi phí tăng 10-20 lần. Tối ưu 7 bẫy này, tỉ lệ token có ích tăng từ 30% lên 65%, tương đương quota dùng được gấp 2-3 lần.

claude-codeanthropictoken-optimization
8 phút đọc