PaddleOCR 3.5: OCR chạy thẳng trong trình duyệt, tích hợp Transformers và một-click Office to Markdown

TL;DR

PaddleOCR 3.5 (phát hành 21/4/2026) đưa OCR chất lượng production vào thẳng trình duyệt. Ba thay đổi lớn: PaddleOCR.js — SDK browser chính thức chạy PP-OCRv5 với WebGPU + Wasm, không cần server; 20 model tích hợp sâu Hugging Face, hỗ trợ transformers như một backend bên cạnh static/dynamic graph của Paddle; và convert một-click Word/Excel/PowerPoint sang Markdown. Apache 2.0, miễn phí, data ở lại trên máy client.

PaddleOCR 3.5 hero banner

Có gì mới

PaddleOCR.js — SDK browser chính thức, chạy PP-OCRv5 fully client-side với tăng tốc WebGPU (GPU) và fallback WebAssembly (CPU). Không cần gọi API, không round-trip server.
Unified inference engine — 20 model chính hỗ trợ Transformers. Flip giữa Paddle static graph, Paddle dynamic graph, hay Transformers chỉ trong một dòng code.
Office to Markdown — convert Word, Excel, PowerPoint sang Markdown one-click, sẵn sàng nhét vào RAG pipeline hoặc context của LLM.
DOCX export — PaddleOCR-VL, PP-StructureV3 và PP-DocTranslation giờ có thể export kết quả parse ra DOCX để edit trong Word.
Hugging Face integration sâu: model zoo PaddleOCR giờ ngồi cạnh AutoModel, pipelines, Spaces — load bằng from_pretrained() như bất kỳ model HF nào.

Vì sao đáng chú ý

OCR trước giờ mặc định là gửi ảnh lên server (AWS Textract, Google Document AI, Azure Form Recognizer) hoặc chạy binary native (Tesseract). Cả hai đều có trade-off: cloud OCR tốn phí per-page và đẩy data nhạy cảm ra ngoài; Tesseract miễn phí nhưng accuracy không sánh được với VLM hiện đại, và vẫn cần backend.

PaddleOCR 3.5 phá thế đó bằng cách đưa model production-grade chạy trong browser. Với Next.js, SvelteKit, hay một trang HTML tĩnh, bạn có thể embed PaddleOCR.js và OCR diễn ra hoàn toàn trên máy user. Data y tế, hợp đồng pháp lý, KYC document — không bao giờ rời client. Không backend, không chi phí biến đổi, không lo vendor lock-in.

Song song, việc tích hợp Transformers xoá rào cản lớn nhất của Paddle ecosystem với developer quen Hugging Face: giờ không cần học PaddlePaddle API để dùng PaddleOCR-VL-1.5.

Thông số kỹ thuật

PaddleOCR architecture: model zoo, toolkit, framework, hardware

Hạng mục	Giá trị
Ngày release	21/4/2026 (v3.5.0, commit 33cbdd9)
Browser SDK	PaddleOCR.js — WebGPU + Wasm
Model in-browser	PP-OCRv5
Model hỗ trợ Transformers	20 model chính
Ngôn ngữ (PP-OCRv5)	100+
Ngôn ngữ (PaddleOCR-VL-1.5)	111
Accuracy OmniDocBench v1.5 (VL-1.5)	94.5% (SOTA)
Kích thước VL-1.5	0.9B tham số
Cải thiện PP-OCRv5	+13% accuracy so với v4
License	Apache 2.0

So sánh

Tính năng	PaddleOCR 3.2 (8/2025)	PaddleOCR 3.5 (4/2026)	Tesseract 5	Cloud OCR (AWS/GCP/Azure)
Chạy trong browser	Không	Có (PaddleOCR.js)	Không	Không
WebGPU / Wasm	Không	Có	Không	N/A
Transformers backend	Không	20 model	Không	Không
Office to Markdown	Một phần	One-click	Không	Tuỳ
Privacy (data stays client)	Server-side	Client-side option	Local	Server-side
Chi phí per page	Tự host	Miễn phí	Miễn phí	Có phí
Accuracy doc parsing	Tốt	94.5% OmniDocBench v1.5	Trung bình	Cao

Use cases

Ứng dụng nhạy cảm dữ liệu — legal tech, medtech, fintech. OCR hợp đồng, hồ sơ bệnh án, giấy tờ KYC ngay trên browser của user, PII/PHI không bao giờ lên server.
Static site & Jamstack — thêm tính năng OCR vào Next.js hay SvelteKit không cần dựng backend.
AI agent pipeline — screenshot, PDF scan, hay file Office thành Markdown sạch, đưa thẳng vào context window của LLM.
Hugging Face users — dùng PaddleOCR-VL như drop-in qua transformers, không cần cài runtime Paddle.
RAG ingestion — bulk convert kho Word/Excel/PPT cũ sang Markdown để index vector DB.
Browser extension — capture + OCR screenshot trong chính browser, không infra.
Offline / edge — laptop hay tablet có WebGPU chạy OCR kể cả khi mất mạng.

Giới hạn & pricing

Miễn phí & open source — Apache 2.0. PaddleOCR.js kế thừa cùng license. Không phí license, không phí per-page.
Browser requirement — path WebGPU cần Chromium/Safari/Firefox mới với WebGPU bật. Fallback Wasm chạy rộng rãi nhưng chậm hơn.
Cold start — lần đầu vào trang phải tải weights PP-OCRv5 về (cache sau đó). First-visit latency cao hơn API cloud.
Scope browser — PaddleOCR.js hiện chỉ ship PP-OCRv5. Model heavy hơn như PaddleOCR-VL-1.5 (0.9B) chưa phải workload browser-first — dùng server-side qua Transformers.
Export fidelity — convert Office sang Markdown xử lý tốt Word/Excel/PPT phổ thông, nhưng macro phức tạp, SmartArt, embedded chart có thể mất format.
Release notes chưa công bố throughput WebGPU cụ thể hay kích thước bundle PP-OCRv5 browser.

Với trend WebGPU trưởng thành trên Chromium/Safari/Firefox trong 2026, khả năng PaddleOCR-VL variants (ít nhất phiên bản quantized) sẽ lên browser trong các release kế tiếp là cao. Kỳ vọng thêm: hook Hugging Face sâu hơn (AutoModelForOCR-style), export target ngoài Markdown/DOCX (LaTeX, JSON schema), và tooling chuyên cho agent pipeline (streaming OCR, incremental parse).

Đối với developer: nếu bạn đang build sản phẩm cần OCR và đang cân nhắc AWS Textract hay Google Document AI, đây là thời điểm tốt để thử PaddleOCR.js — đặc biệt nếu user của bạn care về privacy hoặc bạn muốn bỏ chi phí per-page ra khỏi unit economics.

Nguồn: GitHub release v3.5.0, PaddleOCR README, PaddleOCR-VL-1.5 trên Hugging Face, ERNIE Blog.

PaddleOCR 3.5: OCR chạy thẳng trong trình duyệt, tích hợp Transformers và một-click Office to Markdown

TL;DR

Có gì mới

Vì sao đáng chú ý

Thông số kỹ thuật

So sánh

Use cases

Giới hạn & pricing

Tiếp theo

Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?

PaddleOCR 3.5: OCR chạy thẳng trong trình duyệt, tích hợp Transformers và một-click Office to Markdown

TL;DR

Có gì mới

Vì sao đáng chú ý

Thông số kỹ thuật

So sánh

Use cases

Giới hạn & pricing

Tiếp theo

Đạo hữu là phàm nhân, tu tiên giả... hay AI cào nội dung?

Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?