TL;DR

LlamaIndex vừa chạy GPT-5.5 qua ParseBench — benchmark OCR mới phủ ~2.000 trang tài liệu doanh nghiệp thật (bảo hiểm, tài chính, chính phủ). Bốn fact đáng nhớ: (1) GPT-5.5 Reasoning Medium đạt 67.76% overall, đứng hạng 10 trên leaderboard. (2) Thắng đậm tables (90.05%) và visual grounding so với GPT-5.4. (3) Visual grounding tuyệt đối chỉ 36.28% — tệ hơn parser chuyên dụng (55–80%). (4) Đắt: 13.09¢/trang ở mid-thinking, ~5.93¢ ở 0-thinking — gấp 5 lần các OCR cạnh tranh. LlamaParse Agentic vẫn dẫn đầu 84.88% chỉ với 1.25¢/trang.

Có gì mới

Jerry Liu, CEO LlamaIndex, công bố kết quả benchmark đầu tiên cho OpenAI GPT-5.5 ngay sau khi model này lên API ngày 24/04/2026. ParseBench là benchmark do LlamaIndex tự xây để giải quyết một vấn đề thực tế: OmniDocBench đã bão hòa (GLM-OCR, PaddleOCR-VL-1.5 đã vượt 94%) trong khi các metrics text-similarity kiểu BLEU/edit-distance không còn đo được "semantic correctness" mà agent cần để ra quyết định tự động.

ParseBench chấm 5 chiều: tables, charts, content faithfulness, semantic formatting, visual grounding. Mỗi chiều bám một failure mode cụ thể từng phá production agent — ví dụ một bảng bảo hiểm bị lệch cột khiến agent đọc sai ô coverage, hay một con số mất dấu thập phân khiến tính toán lệch hàng nghìn đô.

Tại sao quan trọng

Đây là lần đầu một frontier model mới được test trên benchmark ưu tiên góc nhìn agent thay vì "giống văn bản gốc". Bar đã dịch chuyển từ "đủ để con người đọc" sang "đủ tin cậy để agent hành động". Nếu bạn đang xây pipeline OCR cho bảo hiểm, fintech, hay legal review — kết quả này thay đổi hẳn cách bạn chọn model.

Số liệu chi tiết

Top 10 leaderboard ParseBench (overall score):

#ModelOverallTablesChartsContent Faith.Sem. Format.Visual Ground.¢ / page
1LlamaParse Agentic84.8890.7478.1189.6885.2480.621.25¢
2Gemini 3 Flash (Thinking High)75.0591.5064.7990.8768.3159.772.41¢
3Reducto Agentic72.9780.4273.4086.3757.6067.074.76¢
4LlamaParse Cost Effective71.8973.1666.6688.0273.0458.560.38¢
7Gemini 3.1 Pro69.1491.0041.1390.1652.4370.998.49¢
10GPT-5.5 (Reasoning Medium)67.7690.0565.5386.8160.1236.2813.09¢

Điểm cần soi: GPT-5.5 cao điểm tables (90.05%) nhưng visual grounding chỉ 36.28% — đây chính là điểm tách VLM general-purpose khỏi parser chuyên dụng. "Visual grounding" tức là khả năng map giá trị extract về đúng tọa độ trang gốc; agent kiểm toán bảo hiểm cần điều này để truy vết.

So sánh GPT-5.5 vs GPT-5.4 vs Opus 4.7

Theo tweet của Jerry Liu:

  • GPT-5.5 thắng tables và visual grounding
  • GPT-5.5 0-thinking thua GPT-5.4 0-thinking ở charts (counter-intuitive)
  • Higher thinking làm tệ hơn ở content faithfulness và semantic formatting — thinking nhiều không tự động tốt hơn cho OCR
  • Opus 4.7 thắng overall ở content faithfulness và semantic formatting

Kết quả này khớp với pattern lớn hơn LlamaIndex tổng kết trong blog: "throwing more compute at VLMs gives diminishing returns". Gemini chỉ tăng ~5 điểm từ minimal→high thinking với chi phí gấp 4 lần.

Use cases

  • Hợp với GPT-5.5: tài liệu nặng bảng biểu (báo cáo tài chính, bảng coverage bảo hiểm) khi 13¢/trang chấp nhận được
  • Tránh GPT-5.5 cho: tài liệu cần truy vết tọa độ (legal redlines, claim approval) — visual grounding 36% nghĩa là 1 trong 3 reference sai vị trí
  • Production OCR cost-quality tối ưu: LlamaParse Agentic (1.25¢, 84.88% overall) hoặc Gemini 3 Flash Thinking High (2.41¢, 75.05%)
  • Long-form regulatory: Opus 4.7 thắng ở content faithfulness và semantic formatting — chọn cho hợp đồng và hồ sơ pháp lý

Hạn chế & giá

Ba điểm yếu của GPT-5.5 ở góc nhìn OCR:

  1. Giá: 13.09¢/trang ở mid-thinking, ~5.93¢ ở 0-thinking — gấp 5 lần các solution OCR cạnh tranh. Một pipeline 100k trang/tháng tốn $13k chỉ riêng GPT-5.5.
  2. Visual grounding 36.28%: đây là điểm thấp nhất Top 10 ở chiều này. Specialized parsers (Reducto, Extend, LandingAI) đạt 55–80%.
  3. Thinking không cứu: tăng thinking budget không tăng faithfulness — model bịa thêm khi suy nghĩ nhiều hơn.

ParseBench là Apache 2.0 — bộ dataset có trên HuggingFace, code và 90+ pipeline pre-configured ở run-llama/ParseBench. Tự reproduce được.

Sắp tới

Mong chờ thêm Anthropic Opus 4.7 và OpenAI GPT-5.5 0-thinking vào leaderboard chính thức (hiện tại baseline có Opus 4.6 và GPT-5.4). Hướng đi rõ ràng: benchmark OCR đang dịch từ "text similarity" sang "semantic correctness for agents" — nơi LlamaParse Agentic đang giữ frontier với 84.88% chỉ ở 1.25¢/trang.

Nguồn: Jerry Liu (X), LlamaIndex blog — ParseBench, GitHub run-llama/ParseBench, OpenAI.