PageIndex: Xuất sắc trong niche của nó - nhưng Twitter đang hype quá mức

TL;DR

PageIndex (VectifyAI) là framework RAG không dùng vector database, thay vào đó để LLM "đọc mục lục" và tự điều hướng qua tài liệu như người thật. Nó đạt 98.7% accuracy trên FinanceBench và đang có 28,700 GitHub stars. Nhưng lời nhận xét trên Twitter - rằng nó chỉ phù hợp với số lượng tài liệu nhỏ và không hỗ trợ tìm kiếm cross-folder - là có cơ sở, ít nhất với bản open-source. Enterprise edition mới ra mắt 3/5/2026 đã giải quyết vấn đề này.

Vector RAG thực sự kém ở đâu

Để hiểu tại sao PageIndex ra đời, cần nhìn vào 2 failure mode kinh điển của vector search:

Similar nhưng không relevant: Trong tài liệu pháp lý hay tài chính, hai đoạn văn có thể trông giống nhau về mặt ngữ nghĩa nhưng mang nghĩa ngược nhau - ai có trách nhiệm pháp lý, liều dùng là bao nhiêu. Vector search không phân biệt được và trả về kết quả sai nhưng trông "đúng".
Relevant nhưng không similar: Câu trả lời đúng đôi khi nằm ở Phụ lục G, nhưng query không có từ nào giống với Phụ lục G. Vector search bỏ qua hoàn toàn.

Ngoài ra, hard chunking (cắt text thành chunk 512-1000 tokens) phá vỡ tính liên mạch, và mỗi query được xử lý độc lập - bỏ qua toàn bộ lịch sử chat.

PageIndex hoạt động thế nào

Thay vì embed text thành vector và tính cosine similarity, PageIndex làm theo 2 bước:

Indexing: Tạo cây Table-of-Contents (ToC) dạng JSON từ tài liệu. Mỗi node đại diện cho 1 section tự nhiên (chương, trang, đoạn).
Retrieval: LLM đọc ToC, chọn section phù hợp nhất, extract thông tin, tự hỏi "đã đủ chưa?", nếu chưa thì tiếp tục - giống hệt cách người đọc chuyên nghiệp lướt tài liệu dày.

ToC JSON nằm trực tiếp trong context window của LLM ("in-context index") - không phải external database. Điều này cho phép model dùng toàn bộ context của cuộc trò chuyện để ra quyết định tại mỗi bước điều hướng.

Kết quả: LLM có thể follow cross-reference như "xem Phụ lục G" - thứ mà vector search gần như không thể làm được.

Con số ấn tượng

Metric	Giá trị
FinanceBench accuracy	98.7% (SOTA)
GitHub Stars	28,700+
GitHub Forks	2,400+
Cloud users (production)	23,000+
License	MIT (OSS)
Language	Python 100%

Mafin 2.5 - hệ thống phân tích tài chính chạy trên PageIndex - đạt 98.7% trên FinanceBench, benchmark gồm những câu hỏi phức tạp về SEC filings và earnings disclosures. Đây là con số real-world, không phải synthetic.

Twitter có đúng không?

Nhận xét được chia sẻ rộng: "PageIndex chỉ phù hợp với số lượng tài liệu rất nhỏ... chỉ retrieve trong 1 tài liệu, không hỗ trợ retrieval across folder hoặc phạm vi rộng hơn."

Đánh giá: Đúng với bản OSS, nhưng bức tranh lớn hơn thế.

Bản open-source PageIndex được thiết kế cho retrieval sâu trong 1 tài liệu dài. Đây là use case nó giải quyết tốt nhất - và cũng là nơi vector RAG yếu nhất. Dùng PageIndex OSS để search cross-folder là dùng sai tool.

Ngày 3/5/2026, VectifyAI ra mắt PageIndex File System - layer mới cho phép 1 index duy nhất reason qua hàng triệu tài liệu. Kỹ thuật key:

Virtual nodes: Tự động synthesize hierarchy từ corpus flat (S3 bucket, SharePoint không có folder structure)
Query-dependent trees: Cùng 1 corpus, câu hỏi "vendor X tính bao nhiêu năm 2024?" tạo ra cây khác với "hợp đồng nào hết hạn quý tới?"
Dynamic flattening: Bỏ qua các node không mang thông tin, giữ search depth tối thiểu cần thiết

Feature này hiện chỉ có ở Enterprise (dedicated/VPC). Cloud edition đang rollout trong tháng 5/2026.

Khi nào không nên dùng

PageIndex không phải silver bullet. Một số trường hợp nên tránh:

Codebase: Code là graph of dependencies - import, function call, type definition. Grep/ripgrep hoặc AST parsing nhanh và chính xác hơn nhiều. Lý do Cursor và Claude Code không dùng vector RAG cho code.
PDF phức tạp với OSS version: Standard PDF parsing của OSS hay fail với layout phức tạp - cần Cloud/Enterprise với enhanced OCR.
Multi-document scale lớn mà không có Enterprise: Cần PageIndex File System. OSS không hỗ trợ.
Latency-sensitive workload: Sequential LLM inference calls tốn thời gian và token hơn 1 vector lookup.

Ai nên thử ngay

PageIndex shine nhất ở đây:

Analyst tài chính làm việc với SEC filings, earnings reports dày hàng trăm trang
Luật sư cần tìm điều khoản cụ thể trong hợp đồng phức tạp với nhiều cross-reference
Researcher xử lý academic papers hay technical manuals dài
Enterprise cần search across corporate knowledge base hàng triệu document (Enterprise tier)

Bắt đầu: pip install pageindex, set LLM API key (hỗ trợ multi-provider qua LiteLLM), chạy run_pageindex.py với PDF của bạn. OSS miễn phí, MIT license.

Nhin ve phia truoc

PageIndex đang di đúng hướng: thay vì "làm vector search tốt hơn", họ đặt câu hỏi "tại sao lại cần vector search?". Với tài liệu có cấu trúc rõ ràng và ngữ nghĩa phức tạp, câu trả lời là - không cần.

Nhưng hype "PageIndex kills RAG" trên Twitter là oversimplification. Đây là 1 tool xuất sắc trong niche của nó, không phải replacement cho mọi retrieval problem. Twitter đúng 1 nửa - cần đọc docs trước khi build production system.

Nguon: GitHub VectifyAI/PageIndex, pageindex.ai, PageIndex File System announcement.