← Tất cả bài viết

Tag: #document-intelligence

1 bài viết

Chunkr: Công cụ mã nguồn mở chuyển PDF, Word, PPTX thành dữ liệu RAG-ready với 4 trang/giây
8072026-06-27

Chunkr: Công cụ mã nguồn mở chuyển PDF, Word, PPTX thành dữ liệu RAG-ready với 4 trang/giây

Chunkr là Document Intelligence API mã nguồn mở (Rust), xử lý 4 trang/giây trên RTX 4090, tương đương 11 triệu trang mỗi tháng chỉ với chi phí $249. Hỗ trợ 11+ loại segment (bảng, công thức, caption), output JSON/HTML/Markdown chuẩn cho RAG pipeline. Có thể self-host hoàn toàn qua Docker Compose - không cần phụ thuộc vendor.

ocrdocument-intelligencerag
7 phút đọc