TL;DR

PaddleOCR 3.5 (phát hành 21/4/2026) đưa OCR chất lượng production vào thẳng trình duyệt. Ba thay đổi lớn: PaddleOCR.js — SDK browser chính thức chạy PP-OCRv5 với WebGPU + Wasm, không cần server; 20 model tích hợp sâu Hugging Face, hỗ trợ transformers như một backend bên cạnh static/dynamic graph của Paddle; và convert một-click Word/Excel/PowerPoint sang Markdown. Apache 2.0, miễn phí, data ở lại trên máy client.

PaddleOCR 3.5 hero banner

Có gì mới

  • PaddleOCR.js — SDK browser chính thức, chạy PP-OCRv5 fully client-side với tăng tốc WebGPU (GPU) và fallback WebAssembly (CPU). Không cần gọi API, không round-trip server.
  • Unified inference engine — 20 model chính hỗ trợ Transformers. Flip giữa Paddle static graph, Paddle dynamic graph, hay Transformers chỉ trong một dòng code.
  • Office to Markdown — convert Word, Excel, PowerPoint sang Markdown one-click, sẵn sàng nhét vào RAG pipeline hoặc context của LLM.
  • DOCX export — PaddleOCR-VL, PP-StructureV3 và PP-DocTranslation giờ có thể export kết quả parse ra DOCX để edit trong Word.
  • Hugging Face integration sâu: model zoo PaddleOCR giờ ngồi cạnh AutoModel, pipelines, Spaces — load bằng from_pretrained() như bất kỳ model HF nào.

Vì sao đáng chú ý

OCR trước giờ mặc định là gửi ảnh lên server (AWS Textract, Google Document AI, Azure Form Recognizer) hoặc chạy binary native (Tesseract). Cả hai đều có trade-off: cloud OCR tốn phí per-page và đẩy data nhạy cảm ra ngoài; Tesseract miễn phí nhưng accuracy không sánh được với VLM hiện đại, và vẫn cần backend.

PaddleOCR 3.5 phá thế đó bằng cách đưa model production-grade chạy trong browser. Với Next.js, SvelteKit, hay một trang HTML tĩnh, bạn có thể embed PaddleOCR.js và OCR diễn ra hoàn toàn trên máy user. Data y tế, hợp đồng pháp lý, KYC document — không bao giờ rời client. Không backend, không chi phí biến đổi, không lo vendor lock-in.

Song song, việc tích hợp Transformers xoá rào cản lớn nhất của Paddle ecosystem với developer quen Hugging Face: giờ không cần học PaddlePaddle API để dùng PaddleOCR-VL-1.5.

Thông số kỹ thuật

PaddleOCR architecture: model zoo, toolkit, framework, hardware

Hạng mụcGiá trị
Ngày release21/4/2026 (v3.5.0, commit 33cbdd9)
Browser SDKPaddleOCR.js — WebGPU + Wasm
Model in-browserPP-OCRv5
Model hỗ trợ Transformers20 model chính
Ngôn ngữ (PP-OCRv5)100+
Ngôn ngữ (PaddleOCR-VL-1.5)111
Accuracy OmniDocBench v1.5 (VL-1.5)94.5% (SOTA)
Kích thước VL-1.50.9B tham số
Cải thiện PP-OCRv5+13% accuracy so với v4
LicenseApache 2.0

So sánh

Tính năngPaddleOCR 3.2 (8/2025)PaddleOCR 3.5 (4/2026)Tesseract 5Cloud OCR (AWS/GCP/Azure)
Chạy trong browserKhôngCó (PaddleOCR.js)KhôngKhông
WebGPU / WasmKhôngKhôngN/A
Transformers backendKhông20 modelKhôngKhông
Office to MarkdownMột phầnOne-clickKhôngTuỳ
Privacy (data stays client)Server-sideClient-side optionLocalServer-side
Chi phí per pageTự hostMiễn phíMiễn phíCó phí
Accuracy doc parsingTốt94.5% OmniDocBench v1.5Trung bìnhCao

Use cases

  • Ứng dụng nhạy cảm dữ liệu — legal tech, medtech, fintech. OCR hợp đồng, hồ sơ bệnh án, giấy tờ KYC ngay trên browser của user, PII/PHI không bao giờ lên server.
  • Static site & Jamstack — thêm tính năng OCR vào Next.js hay SvelteKit không cần dựng backend.
  • AI agent pipeline — screenshot, PDF scan, hay file Office thành Markdown sạch, đưa thẳng vào context window của LLM.
  • Hugging Face users — dùng PaddleOCR-VL như drop-in qua transformers, không cần cài runtime Paddle.
  • RAG ingestion — bulk convert kho Word/Excel/PPT cũ sang Markdown để index vector DB.
  • Browser extension — capture + OCR screenshot trong chính browser, không infra.
  • Offline / edge — laptop hay tablet có WebGPU chạy OCR kể cả khi mất mạng.

Giới hạn & pricing

  • Miễn phí & open source — Apache 2.0. PaddleOCR.js kế thừa cùng license. Không phí license, không phí per-page.
  • Browser requirement — path WebGPU cần Chromium/Safari/Firefox mới với WebGPU bật. Fallback Wasm chạy rộng rãi nhưng chậm hơn.
  • Cold start — lần đầu vào trang phải tải weights PP-OCRv5 về (cache sau đó). First-visit latency cao hơn API cloud.
  • Scope browser — PaddleOCR.js hiện chỉ ship PP-OCRv5. Model heavy hơn như PaddleOCR-VL-1.5 (0.9B) chưa phải workload browser-first — dùng server-side qua Transformers.
  • Export fidelity — convert Office sang Markdown xử lý tốt Word/Excel/PPT phổ thông, nhưng macro phức tạp, SmartArt, embedded chart có thể mất format.
  • Release notes chưa công bố throughput WebGPU cụ thể hay kích thước bundle PP-OCRv5 browser.

Tiếp theo

Với trend WebGPU trưởng thành trên Chromium/Safari/Firefox trong 2026, khả năng PaddleOCR-VL variants (ít nhất phiên bản quantized) sẽ lên browser trong các release kế tiếp là cao. Kỳ vọng thêm: hook Hugging Face sâu hơn (AutoModelForOCR-style), export target ngoài Markdown/DOCX (LaTeX, JSON schema), và tooling chuyên cho agent pipeline (streaming OCR, incremental parse).

Đối với developer: nếu bạn đang build sản phẩm cần OCR và đang cân nhắc AWS Textract hay Google Document AI, đây là thời điểm tốt để thử PaddleOCR.js — đặc biệt nếu user của bạn care về privacy hoặc bạn muốn bỏ chi phí per-page ra khỏi unit economics.

Nguồn: GitHub release v3.5.0, PaddleOCR README, PaddleOCR-VL-1.5 trên Hugging Face, ERNIE Blog.