TL;DR

LlamaIndex vừa ra mắt landing page chính thức cho LiteParse tại llamaindex.ai/liteparse. Đây là parser tài liệu open-source, model-free, chạy 100% local, hỗ trợ 50+ định dạng, cài 1 dòng lệnh làm agent skill. CEO Jerry Liu gọi LiteParse là "trụ cột trung tâm" trong chiến lược OSS của LlamaIndex. Repo đã vượt 4.4k sao chỉ sau hơn 1 tháng mở.

LiteParse landing page hero

Có gì mới

Tin chính: LiteParse không còn nằm ẩn trong blog release — nó có nhà riêng. Landing page mới đặt LiteParse ngang hàng với LlamaParse (sản phẩm managed của LlamaIndex), gửi tín hiệu rõ ràng rằng OSS là mặt trận ưu tiên.

Jerry Liu chia sẻ trên X:

LiteParse là document parser OSS tốt nhất, model-free cho AI agent. Sứ mệnh công ty là xây nền tảng xử lý tài liệu agentic tốt nhất thế giới, và LiteParse là trụ cột trung tâm cho nỗ lực OSS đó. Cực nhanh (và sắp nhanh hơn nữa!), hỗ trợ 50+ định dạng, cài 1 phát làm agent skill.

Vì sao đáng chú ý

Các agent coding (Claude Code, Cursor, Cline, tự build) đang ngày càng phải đọc PDF, DOCX, Excel, ảnh scan trong workflow thực. Hầu hết công cụ hiện tại đều có vấn đề:

  • PyPDF / PyMuPDF / Markitdown: làm phẳng layout → mất bảng, mất cột, LLM đọc xong đoán nhầm.
  • Cloud API: chậm, tốn phí theo trang, không chạy được air-gapped.
  • VLM-only: đắt, latency cao, không phù hợp pipeline real-time.

LiteParse chọn hướng khác: spatial text parsing — chiếu text lên lưới không gian, giữ nguyên indentation và whitespace. LLM đọc ra ASCII-art của trang PDF, từ đó dùng khả năng spatial reasoning để hiểu bảng, biểu mẫu, multi-column mà không cần VLM.

Đặc điểm kỹ thuật

Thuộc tínhGiá trị
RuntimeTypeScript-native, Node.js, zero Python deps
PDF enginePDF.js (pdf.js-extract)
OCR mặc địnhTesseract.js (built-in, zero setup)
OCR pluggableHTTP server: EasyOCR, PaddleOCR, hoặc custom
OutputSpatial text · Page screenshot PNG · JSON + bounding box
PlatformLinux · macOS Intel/ARM · Windows (binary standalone)
LicenseApache 2.0
Versionv1.5.1 (17/04/2026)
GitHub stars~4.4k (4k+ trong 3 tuần đầu)

Định dạng hỗ trợ (tự động convert sang PDF trước khi parse):

  • Office: .doc .docx .docm .odt .rtf .ppt .pptx .pptm .odp .xls .xlsx .xlsm .ods .csv .tsv
  • Ảnh: .jpg .jpeg .png .gif .bmp .tiff .webp .svg
  • Primary: PDF (text native + OCR tự động cho trang scan)

Cài đặt cực gọn:

npm i -g @llamaindex/liteparse
lit parse document.pdf

# Hoặc target trang cụ thể
lit parse doc.pdf --target-pages "1-5,10,15-20"

# Cài như agent skill (1 phát)
npx skills add run-llama/llamaparse-agent-skills --skill liteparse

So với LlamaParse và các OSS khác

Tiêu chíLiteParse (OSS)LlamaParse (managed)PyMuPDF / Markitdown
DeployLocal CPUCloud APILocal
Giữ layout✅ Spatial grid✅ VLM refinement❌ Flatten
OCRTesseract + pluggablePremium VLM OCRKhông có / kém
Screenshot fallback
GiáFree, Apache 2.0Trả theo trangFree
Phù hợpAgent real-time, air-gappedProduction phức tạpQuick-and-dirty

Trong benchmark nội bộ của LlamaIndex (QA theo trang, dataset sinh bằng LLM từ screenshot), LiteParse vượt PyPDF, PyMuPDF và Markitdown về độ chính xác và dẫn đầu latency trên tài liệu lớn.

Use case thực tế

  • Agent coding local: Claude Code/Cursor cần đọc PDF spec, invoice, contract mà không upload lên cloud.
  • RAG pipeline on-prem: tài chính, y tế, pháp lý — dữ liệu không được rời máy.
  • Multimodal agent: screenshot fallback cho phép VLM xem chart, sơ đồ, chữ ký trong form.
  • Xử lý hoá đơn + báo cáo tài chính: giữ alignment của bảng số, LLM đọc ra đúng cột.
  • Drop-in LlamaIndex: cắm thẳng vào VectorStoreIndexIngestionPipeline.

Giới hạn & giá

LiteParse miễn phí hoàn toàn theo Apache 2.0. Vài điểm cần biết trước khi chọn:

  • Không tái cấu trúc bảng thành JSON/CSV formal — giữ dạng text aligned, tốt cho LLM nhưng chưa đủ cho pipeline ETL cứng.
  • Trên form scan rất phức tạp (chữ viết tay, nhiều chữ ký lồng), LlamaParse cloud với VLM vẫn chính xác hơn.
  • Benchmark chính thức hiện so với PyPDF/PyMuPDF/Markitdown, chưa công bố head-to-head với parser VLM-only.

Tiếp theo là gì

Jerry Liu nhấn mạnh LiteParse "đang nhanh, và sắp nhanh hơn nữa" — team hé lộ sẽ tối ưu perf thêm trong các bản tiếp theo. Đồng thời hệ sinh thái llamaparse-agent-skills sẽ mở rộng, biến LiteParse thành skill chuẩn cho mọi coding agent.

Cho ai đang build agent cần đọc tài liệu: cài thử trong 30 giây, bỏ được cloud OCR.

Nguồn: LlamaIndex Blog, GitHub run-llama/liteparse, Jerry Liu trên X, MarkTechPost.