TL;DR

ParseBench là benchmark đầu tiên đánh giá chất lượng document parsing cho AI agent trên tài liệu enterprise thực tế — và đặc biệt, là benchmark đầu tiên có hạng mục VLM chart understanding trong bối cảnh document (không phải chart cô lập như ChartQA/ChartXiv). LlamaIndex phát hành 13-04-2026, open-source toàn bộ.

  • ~2.000 trang enterprise đã human-verify, 167.000+ test rule
  • 568 trang chứa chart đa dạng nhúng trong doc thực tế
  • Đánh giá 14 phương pháp trên 5 chiều: Tables, Charts, Content Faithfulness, Semantic Formatting, Visual Grounding
  • LlamaParse Agentic 84.9% — phương pháp duy nhất cạnh tranh ở cả 5 chiều
  • Chart là điểm yếu cả ngành: chỉ 4/14 provider vượt 50%, phần lớn parser specialized dưới 6%

ParseBench hero banner — document parsing benchmark

Điểm mới: Chart benchmark trong context enterprise

Jerry Liu (CEO LlamaIndex) nhấn mạnh trên X rằng đây là benchmark đầu tiên đưa VLM chart understanding vào đúng bối cảnh enterprise document. Các benchmark hiện tại như ChartQA và ChartXiv chỉ test chart độc lập, không kiểm tra khi chart nằm trong báo cáo tài chính, hợp đồng bảo hiểm, hoặc government filing — nơi model phải vừa hiểu layout document vừa trích xuất số liệu chart.

ParseBench cover 568 trang chart với đủ biến thể thực tế:

  • Discrete series (cột, điểm)
  • Continuous series (đường)
  • Bar, point, line graph
  • Chart không có marker rõ
  • Chart có axis phức tạp, legend overlap

Mỗi chart đều có ground-truth datapoints — được bootstrap bằng model frontier rồi human annotator verify lại với tolerance. Điều này cho phép scoring bằng exact data-point verification chứ không phải so sánh text overlap như cách cũ.

Vì sao quan trọng?

Enterprise document là nơi chart cực kỳ phổ biến: báo cáo tài chính có bar chart doanh thu, báo cáo y tế có biểu đồ xét nghiệm, hợp đồng bảo hiểm có biểu đồ tỉ lệ bồi thường. Nếu RAG pipeline hoặc agent không parse được chart thành structured data, toàn bộ downstream reasoning sẽ thiếu 30-50% thông tin định lượng quan trọng.

ParseBench là nỗ lực đầu tiên đo chính xác khoảng cách này — và kết quả khá shock: phần lớn specialized OCR parser scored dưới 6% vì họ chỉ OCR text chứ không trích chart data ra table.

Fact kỹ thuật chi tiết

Five evaluation dimensions of ParseBench

Thông sốGiá trị
Tổng số trang human-verified~2.000
Trang chứa chart568
Số test rule167.000+
Số phương pháp evaluated14
Số pre-configured pipeline90+
Nguồn document gốc1.200+ public docs (insurance, finance, government)
5 chiều đánh giáTables, Charts, Content Faithfulness, Semantic Formatting, Visual Grounding

Ground-truth pipeline

  1. Frontier VLM sinh annotation ban đầu
  2. Human annotator review + sửa từng trang
  3. Workflow tailored riêng cho từng chiều (chart dùng tolerance numeric, text dùng rule-based)

So sánh: Ai đang thắng?

Overall score by provider across 14 methods

MethodOverallNhóm
LlamaParse Agentic84.9%LlamaIndex
LlamaParse Cost-Eff71.9%LlamaIndex
Gemini 3 Flash71.0%VLM
Reducto67.8%Specialized
Qwen 3 VL62.0%VLM
Azure Doc Intelligence59.6%Specialized
Dots OCR55.8%Specialized
Google DocAI50.4%Specialized
AWS Textract47.9%Specialized
GPT-5 Mini46.8%VLM
Claude Haiku 4.545.2%VLM
LandingAI45.2%Specialized

Điểm đáng chú ý từng chiều:

  • Charts: Chỉ 4 provider vượt 50%. Specialized parsers phần lớn <6% — vì họ không extract chart data ra table.
  • Content Faithfulness: Top methods đạt ~90% — nhưng nghĩa là vẫn 1/10 trang có lỗi đáng kể (missing, hallucination, sai reading order).
  • Semantic Formatting: Dải điểm cực rộng, từ 1.0% tới 85.2%.
  • Visual Grounding: VLM <8%; specialized parser 55-80% — specialized thắng rõ ở chiều này.

Use cases thực tế

  • Financial due diligence: trích số liệu từ 10-K, earnings report để feed vào agent phân tích
  • Insurance claims: parse biểu đồ xét nghiệm y tế trong hồ sơ bồi thường
  • Contract analysis: extract bảng điều khoản, chart penalty structure
  • Invoice processing: đảm bảo line item + total khớp, không miss field
  • RAG enterprise: đảm bảo chart data vào vector store dưới dạng structured, không lost trong text blob

Giá & availability

Quality vs cost tradeoff across methods

  • LlamaParse Agentic: ~1.2¢/trang — quality 84.9%, outperform mọi competitor ở mọi mức giá
  • LlamaParse Cost-Effective: <0.4¢/trang — cạnh tranh với Gemini 3 Flash nhưng rẻ hơn đáng kể
  • ParseBench dataset + code: hoàn toàn open-source (HuggingFace + GitHub)
  • Community có thể submit pipeline custom để đánh giá

Điều sắp tới

LlamaIndex sẽ ra mắt public leaderboard trên parsebench.ai để track điểm real-time khi có pipeline mới. Benchmark được thiết kế mở: bạn có thể clone repo, chạy evaluation script với model của mình, và compare thẳng với 14 baseline đã có.

Với hiện trạng 90% AI agent enterprise đều phải "ăn" PDF có chart/table, ParseBench nhiều khả năng sẽ thành standard de-facto giống cách MTEB làm với embedding hoặc HumanEval làm với code. Nếu bạn đang xây RAG pipeline trên enterprise document, đây là benchmark bắt buộc kiểm tra trước khi chốt vendor.

Nguồn: LlamaIndex blog, arXiv 2604.08538, HuggingFace dataset, GitHub, Jerry Liu on X.