Đang đốt 80% context window? 10 tool giúp bạn cắt hóa đơn Claude Code xuống còn một phần nhỏ

TL;DR

Nếu bạn đang dùng Claude Code mà chưa tối ưu gì, khả năng cao bạn đang lãng phí 80% context window - và trả tiền cho phần lãng phí đó. Bài này điểm qua 10 tool open-source giúp cắt token từ 40% đến 99%, phân nhóm theo vấn đề thực tế bạn đang gặp.

Tại sao context window lại đầy nhanh vậy?

Vấn đề không phải Claude Code tệ - mà là mặc định của nó được thiết kế cho trường hợp chung, không phải tối ưu cho dự án của bạn. Cụ thể, context window bị ngốn từ nhiều hướng cùng lúc:

Codebase scanning không cần thiết: Claude đọc cả file để trả lời câu hỏi về 3 dòng code. Prompt mơ hồ trigger file scan cả repo.
Session history và doc cũ: File CLAUDE.md, task log cũ, doc của 3 tháng trước - tất cả load từ đầu session và tính tiền mỗi turn.
Output verbose mặc định: Claude hay mở đầu bằng "Sure!", "Great question!", tóm lại câu hỏi của bạn trước khi trả lời, đề xuất thêm những thứ bạn không cần.
Terminal/tool output thô: Log test, GitHub data dump, MCP server response - tất cả đổ thẳng vào context không qua lọc.
Không có bộ nhớ liên session: Mỗi lần bắt đầu session mới là Claude quên hết - phải đọc lại file từ đầu.

Theo nghiên cứu Stanford 2025, developer trung bình lãng phí hàng nghìn token mỗi ngày chỉ vì những điểm trên.

Diagram so sánh context window trước và sau khi tối ưu token

Nhóm 1 - Giảm token khi đọc codebase

Code Review Graph

Tool ấn tượng nhất trong danh sách. Thay vì để Claude đọc cả repo, Code Review Graph xây một knowledge graph bằng Tree-sitter - parse AST toàn bộ codebase thành graph gồm các node (function, class, import) và edge (call, inheritance, test coverage). Khi có file thay đổi, tool tính "blast radius" - chỉ những file có liên quan trực tiếp mới được đưa vào context.

Benchmark trên 6 repo thực tế: trung bình 8.2x reduction. Trên monorepo gin (Go), giảm từ 21,972 xuống 1,153 tokens - tức 16.4x. Trường hợp cực đoan nhất: 49x. Một monorepo với 27,700+ file chỉ cần đọc ~15 file thực sự liên quan. Re-index 2,900 file dưới 2 giây.

Hỗ trợ 24 ngôn ngữ + Jupyter notebook. Yêu cầu Python 3.10+. Install: pip install code-review-graph && code-review-graph install.

Lưu ý: với file đơn lẻ nhỏ, overhead của graph metadata đôi khi lại tốn hơn đọc thẳng - tool này sinh lợi nhiều nhất ở repo lớn.

Token Savior

MCP server giải quyết 2 vấn đề song song: Claude đọc cả file để tìm 3 dòng code, và Claude quên hết khi kết thúc session. Token Savior index codebase theo symbol (function, class, import, call graph) - thay vì cat cả file, model navigate bằng pointer trực tiếp đến symbol cần đọc.

Kết quả benchmark trên Opus 4.7 với 96 task thực tế: điểm số từ 78.3% lên 100%, active tokens từ 17,221 xuống 3,929/task (-77%), wall time từ 110.6s xuống 26.6s (-76%). Với operation find_symbol: từ 41 triệu ký tự (đọc cả file) xuống còn 67 ký tự (-99.9%).

Kèm theo đó là persistent memory engine: quyết định, bug fix, convention, guardrail được lưu vào SQLite (WAL + FTS5 + vector embeddings) và re-inject dưới dạng compact delta lúc bắt đầu session sau.

Install: claude mcp add token-savior uvx token-savior-recall. Hoạt động với mọi MCP client.

Nhóm 2 - Nén output và filter log

RTK - Rust Token Killer

Fast proxy viết bằng Rust, chặn terminal output trước khi vào context. Không có dependency. Benchmark: giảm 60-90% token từ terminal output. Phù hợp nhất cho pipeline có nhiều lệnh shell, test runner, build output.

Context Mode

Thay vì đổ raw output vào context, Context Mode sandbox output vào SQLite - Claude query khi cần thay vì nhận dump nguyên. Đặc biệt hiệu quả với log lớn và GitHub data: giảm 98% context. Phù hợp cho MCP data dump và log phức tạp.

Token Optimizer MCP

Thêm aggressive caching và compression vào MCP tools. Benchmark: 95%+ token reduction qua caching thông minh. Phù hợp khi dùng nhiều MCP tool đồng thời.

Nhóm 3 - Giảm output verbose của Claude

Caveman Claude

Ý tưởng đơn giản đến bất ngờ: buộc Claude trả lời ngắn gọn như người hang động - không lề mề, không lịch sự thừa. Kết quả: giảm 75% output tokens với zero loss in accuracy.

Claude Token Efficient

Một file CLAUDE.md drop-in với tập rule enforcement: không mở đầu bằng "Sure!", không tóm lại câu hỏi, không đề xuất ngoài scope, ưu tiên edit nhỏ thay vì rewrite lớn. Benchmark trên 5 prompt: output từ 465 từ xuống 170 từ (63% reduction). Code review cụ thể: từ 120 từ xuống 30 từ (75%).

Lưu ý quan trọng: bản thân file CLAUDE.md tốn input token mỗi message. Chỉ có lợi khi output volume đủ lớn để bù lại phần input overhead. Với query ngắn lẻ tẻ, có thể phản tác dụng.

5,300+ GitHub stars. Drop vào project root, không cần thay đổi code.

Nhóm 4 - Tối ưu cấu trúc doc và context

Claude Token Optimizer

Tool này tổ chức lại project structure để Claude chỉ auto-load những gì thực sự cần ở startup. Thực tế: dự án RedwoodJS từ 11,000 tokens startup (1,783 dòng doc + session note cũ + task history) xuống còn 1,300 tokens - chỉ 4 file essential (~800 tokens), phần còn lại available nhưng không auto-load (0 token cost).

Chạy bash init script 2 phút trong project root. Có sẵn pattern cho 9 framework: Express.js, Next.js, Vue, Django, Rails, Angular, NestJS, Laravel, Nuxt.

Claude Context của Zilliz

MCP dùng hybrid vector search để đưa cả codebase vào context một cách thông minh. Benchmark: giảm 40% cost so với phương pháp naive. Phù hợp khi cần semantic search theo ngữ nghĩa.

Token Optimizer và Token Optimizer MCP

Token Optimizer detect các "ghost token" vô hình đang ăn context (whitespace thừa, duplicate content, format không cần thiết). Token Optimizer MCP thêm caching layer cho MCP tool calls.

Chọn stack nào cho trường hợp của bạn?

Không có "one size fits all". Chọn 2-3 tool theo điểm đau thực tế:

Repo lớn, review PR tốn token: Code Review Graph + Token Savior
Terminal output, test log flood context: RTK
MCP data dump: Context Mode
Muốn cải thiện ngay không cần cài gì phức tạp: Caveman + Claude Token Efficient (2 file drop-in)
Doc cũ ngốn token từ đầu session: Claude Token Optimizer

Kết

Ecosystem tool tối ưu token cho Claude Code đang phát triển rất nhanh - tất cả 10 tool ở đây đều open-source, MIT License, và sinh ra từ nhu cầu thực tế của developer. Điểm chung của các tool hiệu quả nhất là chúng không cố "dạy" Claude làm gì, mà thay đổi fundamentally cái gì Claude thấy trong context.

Code Review Graph và Token Savior là 2 tool có benchmark ấn tượng nhất, nhưng đòi hỏi setup ban đầu. Claude Token Efficient và Caveman là điểm vào dễ nhất - drop file vào, tiết kiệm tiền ngay.

via @DataChaz - Code Review Graph - Token Savior - Claude Token Optimizer - Claude Token Efficient