Exa Deep Max: Agentic Search SOTA với Latency Nhanh Hơn 20 Lần

TL;DR

Exa ra mắt Deep Max — endpoint agentic search chất lượng cao nhất của họ, kết hợp frontier LLM với hàng chục lời gọi Exa Search song song. Kết quả: 90% accuracy / 64s trên Deep Search QA (so với You Frontier 84% / 5,908s), 94% / 11s trên FRAMES, và 80% / 25s trên HLE-Search — tied với GPT 5.4 nhưng chỉ bằng một nửa thời gian. Deep Max "releasing soon", chưa công bố pricing.

What's new

Trong tweet công bố từ ExaAILabs, team Exa khẳng định đạt state-of-the-art trên các eval agentic search bằng cách ghép frontier LLM với "dozens of calls to Exa Search". Điểm đáng chú ý không chỉ là accuracy — mà là độ trễ nhanh hơn 20 lần nhờ ba yếu tố: parallel tool calling, token-efficient extraction, và infrastructure search in-house.

Why it matters

Agentic search đang trở thành xương sống của AI agents cần web grounding — từ deep research assistants tới report generation. Vấn đề lớn nhất của thế hệ hiện tại (Perplexity Deep Research, You.com Frontier, Parallel Ultra) là thời gian phản hồi: hàng chục phút cho một query phức tạp. Deep Max rút ngắn xuống "tens of seconds" — đủ nhanh để dùng trong interactive workflow thay vì chỉ batch offline.

Technical facts

Benchmark số liệu từ blog Deep Max:

Benchmark	Deep Max	Competitor	Speedup
Deep Search QA	90% / 64s	You Frontier 84% / 5,908s	~92×
Deep Search QA	90% / 64s	Parallel Ultra 8x 82% / 1,703s	~26×
FRAMES	94% / 11s	Parallel Ultra 88% / 1,457s	~132×
HLE-Search	80% / 25s	GPT 5.4 (tied 80%)	~2×

Ba design element giúp Deep Max nhanh:

Parallel tool calls — nhiều search queries chạy đồng thời, target các cluster thông tin khác nhau thay vì tuần tự.
Token-efficient content — compact page text với highlights, giữ context window cho reasoning thay vì tiêu tốn vào nội dung dài.
In-house search — Exa Instant infrastructure trả kết quả dưới 1 giây mỗi call.

Comparison

Deep Max được benchmark trực tiếp với Perplexity Deep Research (Sonar Reasoning Pro), You.com Frontier, Parallel Ultra/Core/Base, cùng native search của GPT 5.4, Gemini 3.1 Pro, và Claude Opus 4.7. Exa nói ngắn gọn: trên mọi benchmark, Deep Max "up and to the left" — vừa nhanh hơn vừa chính xác hơn. Đáng kể nhất là so với You Frontier trên Deep Search QA: cùng tier accuracy nhưng Deep Max xong sau ~1 phút thay vì ~98 phút.

Use cases

Deep research assistants — interactive Q&A với citation, không bắt user chờ 30 phút/query.
Report generation — AI agents tổng hợp đa nguồn với fact-check, output dưới 1 phút.
Technical Q&A — queries cần cross-reference nhiều documentation nguồn.
AI agents cần grounding chất lượng cao — thay thế/bổ sung cho native search của Claude/GPT/Gemini khi cần accuracy cao.

Limitations & pricing

Deep Max hiện chưa GA — Exa nói "releasing soon" và yêu cầu interested parties reach out trực tiếp để xin access và pricing. Chưa có công bố về context limit, rate limit, hay languages supported. Đây là tier "highest-effort" trong family (instant <200ms, fast ~450ms, deep-lite 2-10s, deep 5-60s, deep-reasoning 10-60s, deep-max highest) — nên cost per call dự kiến cao hơn các mode nhẹ.

What's next

Deep Max là nước đi chiến lược của Exa: cạnh tranh trực diện với Perplexity và Parallel ở phân khúc high-effort agentic search, đồng thời định vị như layer search chuyên dụng cho AI agents thay vì cạnh tranh với in-house search của các foundation model lab. Câu hỏi còn lại là pricing — nếu rẻ hơn hoặc comparable với competitor mà nhanh hơn 20-100×, Deep Max dễ trở thành default cho agentic workflow.

Nguồn: exa.ai/blog/deep-max, @ExaAILabs, StartupHub.