- LlamaIndex vừa nâng LiteParse — bộ parse tài liệu model-free, chạy local, hỗ trợ 50+ định dạng — lên hạng landing page riêng.
- Đây là trụ cột OSS cho sứ mệnh xây nền tảng xử lý tài liệu tốt nhất cho AI agent.
TL;DR
LlamaIndex vừa ra mắt landing page chính thức cho LiteParse tại llamaindex.ai/liteparse. Đây là parser tài liệu open-source, model-free, chạy 100% local, hỗ trợ 50+ định dạng, cài 1 dòng lệnh làm agent skill. CEO Jerry Liu gọi LiteParse là "trụ cột trung tâm" trong chiến lược OSS của LlamaIndex. Repo đã vượt 4.4k sao chỉ sau hơn 1 tháng mở.

Có gì mới
Tin chính: LiteParse không còn nằm ẩn trong blog release — nó có nhà riêng. Landing page mới đặt LiteParse ngang hàng với LlamaParse (sản phẩm managed của LlamaIndex), gửi tín hiệu rõ ràng rằng OSS là mặt trận ưu tiên.
Jerry Liu chia sẻ trên X:
LiteParse là document parser OSS tốt nhất, model-free cho AI agent. Sứ mệnh công ty là xây nền tảng xử lý tài liệu agentic tốt nhất thế giới, và LiteParse là trụ cột trung tâm cho nỗ lực OSS đó. Cực nhanh (và sắp nhanh hơn nữa!), hỗ trợ 50+ định dạng, cài 1 phát làm agent skill.
Vì sao đáng chú ý
Các agent coding (Claude Code, Cursor, Cline, tự build) đang ngày càng phải đọc PDF, DOCX, Excel, ảnh scan trong workflow thực. Hầu hết công cụ hiện tại đều có vấn đề:
- PyPDF / PyMuPDF / Markitdown: làm phẳng layout → mất bảng, mất cột, LLM đọc xong đoán nhầm.
- Cloud API: chậm, tốn phí theo trang, không chạy được air-gapped.
- VLM-only: đắt, latency cao, không phù hợp pipeline real-time.
LiteParse chọn hướng khác: spatial text parsing — chiếu text lên lưới không gian, giữ nguyên indentation và whitespace. LLM đọc ra ASCII-art của trang PDF, từ đó dùng khả năng spatial reasoning để hiểu bảng, biểu mẫu, multi-column mà không cần VLM.
Đặc điểm kỹ thuật
| Thuộc tính | Giá trị |
|---|---|
| Runtime | TypeScript-native, Node.js, zero Python deps |
| PDF engine | PDF.js (pdf.js-extract) |
| OCR mặc định | Tesseract.js (built-in, zero setup) |
| OCR pluggable | HTTP server: EasyOCR, PaddleOCR, hoặc custom |
| Output | Spatial text · Page screenshot PNG · JSON + bounding box |
| Platform | Linux · macOS Intel/ARM · Windows (binary standalone) |
| License | Apache 2.0 |
| Version | v1.5.1 (17/04/2026) |
| GitHub stars | ~4.4k (4k+ trong 3 tuần đầu) |
Định dạng hỗ trợ (tự động convert sang PDF trước khi parse):
- Office:
.doc .docx .docm .odt .rtf .ppt .pptx .pptm .odp .xls .xlsx .xlsm .ods .csv .tsv - Ảnh:
.jpg .jpeg .png .gif .bmp .tiff .webp .svg - Primary: PDF (text native + OCR tự động cho trang scan)
Cài đặt cực gọn:
npm i -g @llamaindex/liteparse
lit parse document.pdf
# Hoặc target trang cụ thể
lit parse doc.pdf --target-pages "1-5,10,15-20"
# Cài như agent skill (1 phát)
npx skills add run-llama/llamaparse-agent-skills --skill liteparseSo với LlamaParse và các OSS khác
| Tiêu chí | LiteParse (OSS) | LlamaParse (managed) | PyMuPDF / Markitdown |
|---|---|---|---|
| Deploy | Local CPU | Cloud API | Local |
| Giữ layout | ✅ Spatial grid | ✅ VLM refinement | ❌ Flatten |
| OCR | Tesseract + pluggable | Premium VLM OCR | Không có / kém |
| Screenshot fallback | ✅ | ✅ | ❌ |
| Giá | Free, Apache 2.0 | Trả theo trang | Free |
| Phù hợp | Agent real-time, air-gapped | Production phức tạp | Quick-and-dirty |
Trong benchmark nội bộ của LlamaIndex (QA theo trang, dataset sinh bằng LLM từ screenshot), LiteParse vượt PyPDF, PyMuPDF và Markitdown về độ chính xác và dẫn đầu latency trên tài liệu lớn.
Use case thực tế
- Agent coding local: Claude Code/Cursor cần đọc PDF spec, invoice, contract mà không upload lên cloud.
- RAG pipeline on-prem: tài chính, y tế, pháp lý — dữ liệu không được rời máy.
- Multimodal agent: screenshot fallback cho phép VLM xem chart, sơ đồ, chữ ký trong form.
- Xử lý hoá đơn + báo cáo tài chính: giữ alignment của bảng số, LLM đọc ra đúng cột.
- Drop-in LlamaIndex: cắm thẳng vào
VectorStoreIndexvàIngestionPipeline.
Giới hạn & giá
LiteParse miễn phí hoàn toàn theo Apache 2.0. Vài điểm cần biết trước khi chọn:
- Không tái cấu trúc bảng thành JSON/CSV formal — giữ dạng text aligned, tốt cho LLM nhưng chưa đủ cho pipeline ETL cứng.
- Trên form scan rất phức tạp (chữ viết tay, nhiều chữ ký lồng), LlamaParse cloud với VLM vẫn chính xác hơn.
- Benchmark chính thức hiện so với PyPDF/PyMuPDF/Markitdown, chưa công bố head-to-head với parser VLM-only.
Tiếp theo là gì
Jerry Liu nhấn mạnh LiteParse "đang nhanh, và sắp nhanh hơn nữa" — team hé lộ sẽ tối ưu perf thêm trong các bản tiếp theo. Đồng thời hệ sinh thái llamaparse-agent-skills sẽ mở rộng, biến LiteParse thành skill chuẩn cho mọi coding agent.
Cho ai đang build agent cần đọc tài liệu: cài thử trong 30 giây, bỏ được cloud OCR.
Nguồn: LlamaIndex Blog, GitHub run-llama/liteparse, Jerry Liu trên X, MarkTechPost.


