Exa Highlights: cắt 96% input token cho web agent, 500 token đủ thay 10K token nguyên trang

TL;DR

Exa AI Labs vừa ship model trích xuất text mới tên Highlights: với cùng một query, nó chọn đúng các token có giá trị nhất trên webpage và bỏ toàn bộ phần còn lại. Kết quả: giảm 96% input token, và 500 token highlights đạt chất lượng RAG tương đương 10K token nguyên trang — tức nén khoảng 20×. Dùng ngay qua content type "highlights" trong Exa API.

What's new

Trước đây Exa đã có extractive highlights với claim "10× token-efficient". Bản Highlights mới được huấn luyện riêng để chọn token theo query, đẩy tỉ lệ nén lên ~20× (từ ~10K xuống ~500 token) mà vẫn giữ groundedness cho RAG.

Ba điểm đáng chú ý:

Extractive — passage được cắt thẳng từ source, không generate. Không có bề mặt hallucination mới.
Query-conditional — cùng một URL, hỏi câu khác sẽ ra passage khác.
API-ready — bật bằng contents: { highlights: { max_characters: 4000 } } hoặc đơn giản highlights: true.

Why it matters

Với các frontier model như GPT-5.5, nút cổ chai của agent long-horizon không phải intelligence mà là context density. Nhồi nguyên 10K token HTML/boilerplate của một trang web vào prompt thì sau 5–10 trang là cửa sổ context vỡ, hoặc chi phí nổ, hoặc hiệu năng long-context suy giảm.

Highlights làm một việc đơn giản nhưng đúng: giữ lại phần model thật sự cần đọc, vứt nav bar, footer, ads, related posts, và những đoạn lạc đề với query. Đây là bản nâng cấp retrieval primitive cho thế hệ agent chạy hàng chục lượt search trong một task.

Technical facts

Metric	Giá trị
Giảm input token	96%
Operating point	500 token highlights ≈ 10K token nguyên trang (RAG quality)
Max characters khuyến nghị	4,000
Kiểu mô hình	Extractive (không generative)
Điều kiện hóa	Query-conditional

Trên benchmark nội bộ WebCode (317 query RAG), Exa cho kết quả:

Completeness: 82.8/100 (vs Parallel 74.2, Claude 59.8)
Signal ratio: 94.5/100
Code recall: 96.7/100
ROUGE-L: 83.2/100

Điểm đáng chú ý về phương pháp luận: Exa tách groundedness (discriminative) khỏi correctness (generative). Correctness cụm quanh ~86% bất kể dùng provider nào — vì nó phản ánh synth model, không phải retriever. Groundedness mới là signal thật để so chất lượng extraction.

Comparison

Provider	Token/page điển hình	Ghi chú
Exa Highlights (new)	~500	Query-conditional, extractive
Exa highlights (old baseline)	vài trăm–1K	10× efficient claim cũ
Perplexity API	~4,096 (default)	Full chunk
Tavily / Brave / Parallel	Variance lớn (1×–13×)	Không query-conditional mức này

Trong eval cũ, Exa đã cho +10% RAG accuracy ở 50–75% fewer token so với baseline raw text. Bản Highlights mới đẩy biên độ đó xa hơn.

Use cases

Research agent đọc 10–30 page/task — swap raw text sang highlights là xong vấn đề context window, không cần tự viết chunker + re-ranker.
Coding agent scrape tài liệu API/Stack Overflow — chỉ cần signal, không cần navbar, sidebar, related questions, footer.
RAG pipeline đang nhồi 10K-token chunk — giảm cost ~4–5% so với full text mà groundedness ngang hoặc tốt hơn.
Multi-hop research với GPT-5.5, Claude 4.6 — giữ được 20–30+ page trong context thay vì 5–7, cho phép chain-of-thought cross-source sâu hơn.
Browser agent (Computer Use, Operator-class) — mỗi bước DOM ngập HTML noise; highlights cắt xuống còn token quyết định để model reasoning không bị kéo xuống.

Developer notes

Một vài ghi chú thực chiến nếu bạn đang cân nhắc migrate:

Nếu pipeline hiện tại đã có re-ranker riêng (Cohere rerank, voyage-rerank...), bật highlights trước re-ranker để giảm lượng token cần rerank — double compression.
Khi query ngắn mơ hồ ("React hooks"), highlights có thể lấy passage quá phân mảnh. Giải pháp: gửi query đầy đủ hơn hoặc fall back về text với max_characters cap.
Với task đánh giá toàn cảnh (summarize cả trang), highlights không phải lựa chọn đúng — dùng full text. Highlights thiết kế cho RAG và agentic lookup, không phải reading comprehension toàn trang.
Log cả query + passage trả về để debug — vì output thay đổi theo query, reproduce bug khó hơn so với full text.

Limitations & pricing

Limitation: Highlights là extractive. Nếu page gốc mỏng hoặc off-topic thì nó không bù được bằng kiến thức ngoài. Cap khuyến nghị 4,000 ký tự — vượt ngưỡng này lợi ích giảm dần.

Pricing: $7 / 1,000 searches (10 results, text + highlights bundled); standalone contents retrieval $1 / 1k pages. Highlights không tính phụ phí so với text thuần.

What's next

Roadmap Exa đang đi rất rõ: retrieval primitive cho agent-era, không phải search UI cho người. Tiếp theo kỳ vọng thấy Highlights được tune riêng cho code page, news page, product page — vì signal của 3 loại này khác nhau rõ rệt. MCP server của Exa cũng đã có, nghĩa là Claude Code, ChatGPT Agents, và các framework như LangGraph có thể gắn highlights vào loop ngay hôm nay.

Nguồn: Exa AI Labs trên X, Exa Search API docs, WebCode benchmark, Exa pricing.

Exa Highlights: cắt 96% input token cho web agent, 500 token đủ thay 10K token nguyên trang

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Developer notes

Limitations & pricing

What's next

Tiếp tục lướt

Hermes Agent v0.11.0: Nous Research ships biggest update yet with 761 PRs, TUI v2, and QQBot

Hermes Agent v0.11.0: Bản cập nhật lớn nhất với 761 PR, TUI React/Ink mới và 17 messaging platform

DevOps vs MLOps vs LLMOps: 3 ops, 3 bài toán khác nhau — đừng lấy playbook DevOps áp vào app LLM

OpenUI v0.5: LLMs giờ tự build full app, không sinh raw code

LiteParse: PDF parser của LlamaIndex đánh bại ML layout bằng một lưới monospace