- PaddlePaddle vừa phát hành PaddleOCR 3.5 (21/4/2026) với bộ ba đáng chú ý: PaddleOCR.js chạy PP-OCRv5 trực tiếp trong trình duyệt bằng WebGPU/Wasm, 20 model hỗ trợ backend Hugging Face Transformers, và convert một-click Word/Excel/PPT sang Markdown.
- Data không rời máy, không cần server, sẵn sàng cho kỷ nguyên AI agent.
TL;DR
PaddleOCR 3.5 (phát hành 21/4/2026) đưa OCR chất lượng production vào thẳng trình duyệt. Ba thay đổi lớn: PaddleOCR.js — SDK browser chính thức chạy PP-OCRv5 với WebGPU + Wasm, không cần server; 20 model tích hợp sâu Hugging Face, hỗ trợ transformers như một backend bên cạnh static/dynamic graph của Paddle; và convert một-click Word/Excel/PowerPoint sang Markdown. Apache 2.0, miễn phí, data ở lại trên máy client.

Có gì mới
- PaddleOCR.js — SDK browser chính thức, chạy PP-OCRv5 fully client-side với tăng tốc WebGPU (GPU) và fallback WebAssembly (CPU). Không cần gọi API, không round-trip server.
- Unified inference engine — 20 model chính hỗ trợ Transformers. Flip giữa Paddle static graph, Paddle dynamic graph, hay Transformers chỉ trong một dòng code.
- Office to Markdown — convert Word, Excel, PowerPoint sang Markdown one-click, sẵn sàng nhét vào RAG pipeline hoặc context của LLM.
- DOCX export — PaddleOCR-VL, PP-StructureV3 và PP-DocTranslation giờ có thể export kết quả parse ra DOCX để edit trong Word.
- Hugging Face integration sâu: model zoo PaddleOCR giờ ngồi cạnh AutoModel, pipelines, Spaces — load bằng
from_pretrained()như bất kỳ model HF nào.
Vì sao đáng chú ý
OCR trước giờ mặc định là gửi ảnh lên server (AWS Textract, Google Document AI, Azure Form Recognizer) hoặc chạy binary native (Tesseract). Cả hai đều có trade-off: cloud OCR tốn phí per-page và đẩy data nhạy cảm ra ngoài; Tesseract miễn phí nhưng accuracy không sánh được với VLM hiện đại, và vẫn cần backend.
PaddleOCR 3.5 phá thế đó bằng cách đưa model production-grade chạy trong browser. Với Next.js, SvelteKit, hay một trang HTML tĩnh, bạn có thể embed PaddleOCR.js và OCR diễn ra hoàn toàn trên máy user. Data y tế, hợp đồng pháp lý, KYC document — không bao giờ rời client. Không backend, không chi phí biến đổi, không lo vendor lock-in.
Song song, việc tích hợp Transformers xoá rào cản lớn nhất của Paddle ecosystem với developer quen Hugging Face: giờ không cần học PaddlePaddle API để dùng PaddleOCR-VL-1.5.
Thông số kỹ thuật

| Hạng mục | Giá trị |
|---|---|
| Ngày release | 21/4/2026 (v3.5.0, commit 33cbdd9) |
| Browser SDK | PaddleOCR.js — WebGPU + Wasm |
| Model in-browser | PP-OCRv5 |
| Model hỗ trợ Transformers | 20 model chính |
| Ngôn ngữ (PP-OCRv5) | 100+ |
| Ngôn ngữ (PaddleOCR-VL-1.5) | 111 |
| Accuracy OmniDocBench v1.5 (VL-1.5) | 94.5% (SOTA) |
| Kích thước VL-1.5 | 0.9B tham số |
| Cải thiện PP-OCRv5 | +13% accuracy so với v4 |
| License | Apache 2.0 |
So sánh
| Tính năng | PaddleOCR 3.2 (8/2025) | PaddleOCR 3.5 (4/2026) | Tesseract 5 | Cloud OCR (AWS/GCP/Azure) |
|---|---|---|---|---|
| Chạy trong browser | Không | Có (PaddleOCR.js) | Không | Không |
| WebGPU / Wasm | Không | Có | Không | N/A |
| Transformers backend | Không | 20 model | Không | Không |
| Office to Markdown | Một phần | One-click | Không | Tuỳ |
| Privacy (data stays client) | Server-side | Client-side option | Local | Server-side |
| Chi phí per page | Tự host | Miễn phí | Miễn phí | Có phí |
| Accuracy doc parsing | Tốt | 94.5% OmniDocBench v1.5 | Trung bình | Cao |
Use cases
- Ứng dụng nhạy cảm dữ liệu — legal tech, medtech, fintech. OCR hợp đồng, hồ sơ bệnh án, giấy tờ KYC ngay trên browser của user, PII/PHI không bao giờ lên server.
- Static site & Jamstack — thêm tính năng OCR vào Next.js hay SvelteKit không cần dựng backend.
- AI agent pipeline — screenshot, PDF scan, hay file Office thành Markdown sạch, đưa thẳng vào context window của LLM.
- Hugging Face users — dùng PaddleOCR-VL như drop-in qua
transformers, không cần cài runtime Paddle. - RAG ingestion — bulk convert kho Word/Excel/PPT cũ sang Markdown để index vector DB.
- Browser extension — capture + OCR screenshot trong chính browser, không infra.
- Offline / edge — laptop hay tablet có WebGPU chạy OCR kể cả khi mất mạng.
Giới hạn & pricing
- Miễn phí & open source — Apache 2.0. PaddleOCR.js kế thừa cùng license. Không phí license, không phí per-page.
- Browser requirement — path WebGPU cần Chromium/Safari/Firefox mới với WebGPU bật. Fallback Wasm chạy rộng rãi nhưng chậm hơn.
- Cold start — lần đầu vào trang phải tải weights PP-OCRv5 về (cache sau đó). First-visit latency cao hơn API cloud.
- Scope browser — PaddleOCR.js hiện chỉ ship PP-OCRv5. Model heavy hơn như PaddleOCR-VL-1.5 (0.9B) chưa phải workload browser-first — dùng server-side qua Transformers.
- Export fidelity — convert Office sang Markdown xử lý tốt Word/Excel/PPT phổ thông, nhưng macro phức tạp, SmartArt, embedded chart có thể mất format.
- Release notes chưa công bố throughput WebGPU cụ thể hay kích thước bundle PP-OCRv5 browser.
Tiếp theo
Với trend WebGPU trưởng thành trên Chromium/Safari/Firefox trong 2026, khả năng PaddleOCR-VL variants (ít nhất phiên bản quantized) sẽ lên browser trong các release kế tiếp là cao. Kỳ vọng thêm: hook Hugging Face sâu hơn (AutoModelForOCR-style), export target ngoài Markdown/DOCX (LaTeX, JSON schema), và tooling chuyên cho agent pipeline (streaming OCR, incremental parse).
Đối với developer: nếu bạn đang build sản phẩm cần OCR và đang cân nhắc AWS Textract hay Google Document AI, đây là thời điểm tốt để thử PaddleOCR.js — đặc biệt nếu user của bạn care về privacy hoặc bạn muốn bỏ chi phí per-page ra khỏi unit economics.
Nguồn: GitHub release v3.5.0, PaddleOCR README, PaddleOCR-VL-1.5 trên Hugging Face, ERNIE Blog.



