- Exa AI Labs vừa tung model trích xuất text "Highlights" — dynamic chọn đúng các token liên quan nhất với query, giảm 96% input token.
- 500 token highlights đạt chất lượng RAG tương đương 10K token nguyên trang.
- Đặc biệt hữu ích cho GPT-5.5 và các agent long-horizon nơi context bloat là nút cổ chai.
TL;DR
Exa AI Labs vừa ship model trích xuất text mới tên Highlights: với cùng một query, nó chọn đúng các token có giá trị nhất trên webpage và bỏ toàn bộ phần còn lại. Kết quả: giảm 96% input token, và 500 token highlights đạt chất lượng RAG tương đương 10K token nguyên trang — tức nén khoảng 20×. Dùng ngay qua content type "highlights" trong Exa API.
What's new
Trước đây Exa đã có extractive highlights với claim "10× token-efficient". Bản Highlights mới được huấn luyện riêng để chọn token theo query, đẩy tỉ lệ nén lên ~20× (từ ~10K xuống ~500 token) mà vẫn giữ groundedness cho RAG.
Ba điểm đáng chú ý:
- Extractive — passage được cắt thẳng từ source, không generate. Không có bề mặt hallucination mới.
- Query-conditional — cùng một URL, hỏi câu khác sẽ ra passage khác.
- API-ready — bật bằng
contents: { highlights: { max_characters: 4000 } }hoặc đơn giảnhighlights: true.
Why it matters
Với các frontier model như GPT-5.5, nút cổ chai của agent long-horizon không phải intelligence mà là context density. Nhồi nguyên 10K token HTML/boilerplate của một trang web vào prompt thì sau 5–10 trang là cửa sổ context vỡ, hoặc chi phí nổ, hoặc hiệu năng long-context suy giảm.
Highlights làm một việc đơn giản nhưng đúng: giữ lại phần model thật sự cần đọc, vứt nav bar, footer, ads, related posts, và những đoạn lạc đề với query. Đây là bản nâng cấp retrieval primitive cho thế hệ agent chạy hàng chục lượt search trong một task.
Technical facts
| Metric | Giá trị |
|---|---|
| Giảm input token | 96% |
| Operating point | 500 token highlights ≈ 10K token nguyên trang (RAG quality) |
| Max characters khuyến nghị | 4,000 |
| Kiểu mô hình | Extractive (không generative) |
| Điều kiện hóa | Query-conditional |
Trên benchmark nội bộ WebCode (317 query RAG), Exa cho kết quả:
- Completeness: 82.8/100 (vs Parallel 74.2, Claude 59.8)
- Signal ratio: 94.5/100
- Code recall: 96.7/100
- ROUGE-L: 83.2/100
Điểm đáng chú ý về phương pháp luận: Exa tách groundedness (discriminative) khỏi correctness (generative). Correctness cụm quanh ~86% bất kể dùng provider nào — vì nó phản ánh synth model, không phải retriever. Groundedness mới là signal thật để so chất lượng extraction.
Comparison
| Provider | Token/page điển hình | Ghi chú |
|---|---|---|
| Exa Highlights (new) | ~500 | Query-conditional, extractive |
| Exa highlights (old baseline) | vài trăm–1K | 10× efficient claim cũ |
| Perplexity API | ~4,096 (default) | Full chunk |
| Tavily / Brave / Parallel | Variance lớn (1×–13×) | Không query-conditional mức này |
Trong eval cũ, Exa đã cho +10% RAG accuracy ở 50–75% fewer token so với baseline raw text. Bản Highlights mới đẩy biên độ đó xa hơn.
Use cases
- Research agent đọc 10–30 page/task — swap raw text sang highlights là xong vấn đề context window, không cần tự viết chunker + re-ranker.
- Coding agent scrape tài liệu API/Stack Overflow — chỉ cần signal, không cần navbar, sidebar, related questions, footer.
- RAG pipeline đang nhồi 10K-token chunk — giảm cost ~4–5% so với full text mà groundedness ngang hoặc tốt hơn.
- Multi-hop research với GPT-5.5, Claude 4.6 — giữ được 20–30+ page trong context thay vì 5–7, cho phép chain-of-thought cross-source sâu hơn.
- Browser agent (Computer Use, Operator-class) — mỗi bước DOM ngập HTML noise; highlights cắt xuống còn token quyết định để model reasoning không bị kéo xuống.
Developer notes
Một vài ghi chú thực chiến nếu bạn đang cân nhắc migrate:
- Nếu pipeline hiện tại đã có re-ranker riêng (Cohere rerank, voyage-rerank...), bật highlights trước re-ranker để giảm lượng token cần rerank — double compression.
- Khi query ngắn mơ hồ ("React hooks"), highlights có thể lấy passage quá phân mảnh. Giải pháp: gửi query đầy đủ hơn hoặc fall back về
textvớimax_characterscap. - Với task đánh giá toàn cảnh (summarize cả trang), highlights không phải lựa chọn đúng — dùng full
text. Highlights thiết kế cho RAG và agentic lookup, không phải reading comprehension toàn trang. - Log cả query + passage trả về để debug — vì output thay đổi theo query, reproduce bug khó hơn so với full text.
Limitations & pricing
Limitation: Highlights là extractive. Nếu page gốc mỏng hoặc off-topic thì nó không bù được bằng kiến thức ngoài. Cap khuyến nghị 4,000 ký tự — vượt ngưỡng này lợi ích giảm dần.
Pricing: $7 / 1,000 searches (10 results, text + highlights bundled); standalone contents retrieval $1 / 1k pages. Highlights không tính phụ phí so với text thuần.
What's next
Roadmap Exa đang đi rất rõ: retrieval primitive cho agent-era, không phải search UI cho người. Tiếp theo kỳ vọng thấy Highlights được tune riêng cho code page, news page, product page — vì signal của 3 loại này khác nhau rõ rệt. MCP server của Exa cũng đã có, nghĩa là Claude Code, ChatGPT Agents, và các framework như LangGraph có thể gắn highlights vào loop ngay hôm nay.
Nguồn: Exa AI Labs trên X, Exa Search API docs, WebCode benchmark, Exa pricing.

