LlamaIndex đổi mệnh: tất tay vào Document OCR cho AI Agents

TL;DR

LlamaIndex vừa làm lại website và công khai tuyên bố sứ mệnh hiện tại: dùng AI để giải quyết bài toán Document OCR cho AI agents. Toàn bộ sản phẩm — LlamaParse (thương mại), LiteParse (open source), ParseBench (benchmark mở) — được căn thẳng hàng về mục tiêu này. Thông điệp mới trên trang chủ gói gọn trong một dòng: "Document OCR for the agentic stack."

LlamaIndex revamped homepage: Redefine document workflows with AI Agents

Website mới có gì

Thay vì định vị cũ kiểu "data framework cho LLM", trang chủ mới đặt Document OCR làm trung tâm. Ba sản phẩm được trình bày như một stack thống nhất:

LlamaParse — sản phẩm thương mại, VLM-powered document agent, hỗ trợ 50+ định dạng file, bảng phức tạp, biểu đồ, chữ viết tay; triển khai cloud hoặc VPC.
LiteParse — bản lõi open source, chạy hoàn toàn local, không cần API key, không cần Python.
ParseBench — benchmark mở đầu tiên cho document OCR hướng agentic, dùng để đo chính LlamaParse và đối thủ một cách công khai.

CEO Jerry Liu khẳng định trên X rằng đây không phải pivot mà là hợp nhất: tất cả nỗ lực, từ commercial đến open source, đều phục vụ đúng một bài toán.

Vì sao điều này quan trọng

RAG và agent đang bị kẹt ở khâu input: PDF nhiều cột, bảng bị vỡ, biểu đồ bị bỏ qua, chữ viết tay bị đoán sai. Khi input hỏng thì toàn bộ reasoning phía sau vô nghĩa. LlamaIndex đang đặt cược rằng lớp "parse tài liệu" sẽ trở thành hạ tầng mặc định của AI stack — giống như embedding hay vector DB vài năm trước. Việc tách lõi ra open source (LiteParse) và ra benchmark công khai (ParseBench) là nước đi chuẩn của một công ty muốn định nghĩa category, không chỉ bán sản phẩm.

Số liệu kỹ thuật đáng nhớ

ParseBench: ~2000 verified pages, 167K+ test rules, 14 methods, 5 capability dimensions

ParseBench: ~2.000 trang tài liệu doanh nghiệp đã verify thủ công, hơn 167.000 test rule, đánh giá trên 5 chiều — tables, charts, content faithfulness, semantic formatting, visual grounding.
LlamaParse Agentic đạt 84.9% overall — là phương pháp duy nhất trong 14 đối thủ được test mà cạnh tranh được ở cả 5 chiều.
Chart parsing là khoảng trống lớn nhất của ngành: chỉ 4 nhà cung cấp vượt 50%, phần lớn parser chuyên dụng dưới 6%.
LiteParse cán mốc 4.000+ sao GitHub chỉ 3 tuần sau khi open source (19/03/2026).
Quy mô nền tảng LlamaIndex công bố: 1 tỷ+ tài liệu đã xử lý, 25 triệu+ lượt tải package mỗi tháng, 300 nghìn+ người dùng active.

So sánh nhanh: cloud vs local vs legacy OCR

Tiêu chí	LlamaParse (cloud)	LiteParse (local OSS)	Legacy OCR (Textract, Azure DI, Google Doc AI)
Nơi chạy	Cloud / VPC	Máy local, không cần key	Cloud
Thế mạnh	Layout phức tạp, bảng, chart, chữ viết tay	Tốc độ, privacy, agent real-time	Form mẫu cố định
ParseBench overall	84.9% (Agentic)	—	Đa số < 50% ở charts, có loại < 6%
Chi phí	~0.4–1.2¢/trang	Miễn phí (compute local)	Theo trang, cloud pricing

Ai hưởng lợi nhất

Team RAG / Agent doanh nghiệp: cần đọc hợp đồng, báo cáo tài chính, hồ sơ y tế với bảng và chart phức tạp.
Dev làm agent local: LiteParse cho phép parse tài liệu ngay trên máy user, không gửi dữ liệu ra cloud — hợp với ngành regulated.
Team đánh giá vendor: ParseBench biến việc chọn parser thành chuyện đo đạc công khai, thay vì tin demo của vendor.

LiteParse: local, zero-dependency document parser for AI agents

Giới hạn & pricing

LlamaParse giá tầm 0.4–1.2¢/trang tuỳ mode, đóng, phụ thuộc cloud (dù có VPC).
LiteParse miễn phí nhưng thiên về layout-preserving text, chưa đạt độ chính xác cấu trúc như LlamaParse ở bảng/chart phức tạp.
ParseBench hiện tập trung vào tài liệu doanh nghiệp tiếng Anh — coverage đa ngôn ngữ còn đang mở rộng.
Website mới đang rollout, một phần blog và integration cũ vẫn nằm ở IA cũ.

Hướng tới

Sau LiteParse (3/2026) và ParseBench (13/04/2026), bước logic tiếp theo là mở rộng benchmark sang đa ngôn ngữ và thêm class tài liệu mới, đồng thời kéo LlamaParse vào sâu hơn trong các agent framework như lớp parse mặc định. Với tuyên bố "Document OCR for the agentic stack", LlamaIndex đang vẽ lại bản đồ cạnh tranh: không đấu trực tiếp với Textract hay Azure DI về OCR truyền thống, mà định nghĩa một category mới dành riêng cho agent.

Nguồn: llamaindex.ai, Jerry Liu trên X, ParseBench blog, LiteParse blog.

LlamaIndex đổi mệnh: tất tay vào Document OCR cho AI Agents

TL;DR

Website mới có gì

Vì sao điều này quan trọng

Số liệu kỹ thuật đáng nhớ

So sánh nhanh: cloud vs local vs legacy OCR

Ai hưởng lợi nhất

Giới hạn & pricing

Hướng tới

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

CubeSandbox: Tencent vừa open-source nền tảng chạy hàng nghìn AI agent isolation thật trong vài mili-giây

GitHub Copilot SDK gặp React Native: bài học từ IssueCrush