TL;DR

sqz (repo ojuschugh1/sqz) là CLI Rust đơn binary, cài bằng sqz init, tự hook vào Claude Code / Cursor / Cline / Windsurf / Gemini CLI và nén output command trước khi token chạy vào context window. Trọng tâm: deduplication — cùng file đọc lần 2 trở đi chỉ tốn 13 tokens reference. Đọc 5 lần, tiết kiệm ~92% (10,000 → 826 tokens). Stack trace và error message được bypass để không mất context debug. License Elastic 2.0, zero telemetry, mọi thứ chạy local.

What's new

Agent coding thế hệ mới (Claude Code, Cursor) đọc lại cùng file nhiều lần trong 1 session là chuyện bình thường — mỗi lần đọc là vài nghìn token vào context. sqz chèn một lớp PreToolUse hook giữa tool và model: output trước khi serialize sẽ qua pipeline nén. Cache dedup persist qua session, nên lần đọc thứ 2 hôm sau vẫn chỉ tốn 13 tokens thay vì cả file.

Tác giả Ojus Chugh công bố bản v0.8.0 hồi tháng 4/2026. Binary Rust đơn, 85.7% codebase Rust, zero-config. Cài qua curl | sh (macOS/Linux) hoặc npm install -g sqz-cli (cross-platform).

Why it matters

Token tiêu tốn lớn nhất của agent workflow là lặp: grep cùng file, đọc lại log cũ, chạy git status 20 lần. Mỗi lần lặp đó là tiền thật và là phần context bị chiếm chỗ — model càng ít chỗ để nhớ plan. Nén output ngay tại tool layer giải quyết cả hai: giảm hoá đơn API và giúp model giữ được nhiều step hơn trong cùng context window trước khi bị truncate.

Technical facts

sqz không nén mù — có formatter theo loại output. Số liệu chính thức từ README:

Loại contentTrướcSauTiết kiệm
File đọc lặp (lần 2+)~2,000 tokens13 tokens~99%
Repeated log lines1486258%
Large JSON array25914245%
JSON API response645317%
Git diff615412%

Ngoài dedup, pipeline gồm: structural code summary (chỉ giữ imports, function signatures, call graph — giảm ~70% trên file code), JSON pipeline (strip null, compact array, TOON encoding), và safe mode routing cho stack trace / error message (bypass hoàn toàn, 0% loss — giữ nguyên context debug).

CLI có sqz gain in ASCII chart tiết kiệm hằng ngày, sqz stats cumulative, sqz discover tìm chỗ chưa nén. Demo của tác giả: 19,214 tokens saved qua 1,178 compression trong 7 ngày.

Comparison

Vài dự án cùng hướng xuất hiện gần đây:

  • rtk-ai/rtk — CLI proxy Rust, quảng cáo 60–90% savings. Khác biệt: rtk chạy như proxy process đứng giữa agent và shell; sqz dùng PreToolUse hook trực tiếp trong tool.
  • llm-token-reducer — biến thể single binary cùng concept proxy.
  • headroom — context optimization layer cho LLM application (dev build app), không phải terminal agent.

Điểm riêng của sqz: tập trung dedup-first (13-token reference cho repeated reads — con số cụ thể và nhỏ hơn nhiều giải pháp nén generic) cộng với tầm phủ rộng: ngoài terminal agent còn có VS Code extension, JetBrains plugin và browser extension (Firefox/Chrome) cho giao diện web như ChatGPT/Gemini.

Use cases

  • Debug cycle test-fix-test: sqz báo tiết kiệm ~65% cho loop này — agent giữ được nhiều bước hơn trong cùng context.
  • Đọc đi đọc lại cùng file khi agent đang trace bug: lần 2+ chỉ 13 tokens, không còn lo "context đầy".
  • Grep / git / docker / kubectl / cargo / npm output dài: có formatter chuyên biệt streamline.
  • ChatGPT / Gemini web: browser extension nén trước khi paste.
  • Tự build pipeline: sqz proxy --port 8080 chạy như HTTP proxy API-compatible.

Limitations & pricing

Giá: $0 — open source. License: Elastic License 2.0 — dùng / fork / modify thoải mái, cấm bán lại dưới dạng hosted service cạnh tranh.

Limitation: hiệu quả nén phụ thuộc loại content. JSON API response nhỏ chỉ tiết kiệm 17%, git diff 12%. Con số 90%+ chỉ đến khi workload có nhiều lặp lại (đọc lại file, log lặp). Với agent chỉ đọc mỗi thứ 1 lần, lợi ích thấp hơn hẳn. Hiện bản v0.8.0 pre-1.0 — hook API có thể còn thay đổi.

Privacy: zero telemetry, fully offline, không gửi data về đâu — toàn bộ compression pipeline chạy local.

What's next

sqz chưa publish roadmap chính thức, nhưng trajectory từ v0.8.0 + mở rộng tool list (10+ terminal agent + 2 IDE plugin + 2 browser extension) cho thấy hướng thành universal context compressor cho mọi LLM surface. Đáng để thử nếu bạn chạy Claude Code / Cursor hằng ngày và thấy token bill tăng vì lặp.

Nguồn: GitHub ojuschugh1/sqz, tweet announcement của tác giả.