- VSE (Video Subtitle Extractor) trích xuất hardcoded subtitle từ video sang file SRT chỉ bằng OCR local - không cần API.
- Hỗ trợ 87 ngôn ngữ, 4 chế độ tăng tốc phần cứng (CUDA, DirectML, ONNX, CPU).
- Phiên bản 2.2.0 có 8.800+ GitHub stars, Apache-2.0, hoàn toàn miễn phí không giới hạn.
TL;DR
Video Subtitle Extractor (VSE) là công cụ GUI open-source giúp trích xuất hardcoded subtitle (chữ burned vào video) thành file .srt hoặc .txt - hoàn toàn trên máy local, không gửi dữ liệu lên bất kỳ server nào. Hỗ trợ 87 ngôn ngữ, chạy trên Windows/macOS/Linux, tăng tốc GPU đa nền tảng, miễn phí tuyệt đối.
Vấn đề cần giải quyết
Subtitle "cứng" (hardsub) là loại phụ đề được đốt trực tiếp vào từng frame video - bạn không thể bật/tắt, không thể copy, không thể dịch máy từ file SRT. Để chuyển hardsub thành text, cách truyền thống là:
Dùng VideoSubFinder phát hiện frame có text, rồi chạy thêm ABBYY FineReader để OCR - quy trình 2 bước tách biệt, tốn thời gian
Upload lên dịch vụ online (SubExtractor...) - giới hạn 2GB/2 giờ, phải trả tiền cho video dài, lo ngại bảo mật dữ liệu
VSE giải quyết cả hai điểm yếu này bằng cách tích hợp toàn bộ pipeline thành một ứng dụng duy nhất chạy offline.
Tính năng chính
OCR local 100% - không cần API Baidu, Alibaba hay bất kỳ dịch vụ OCR online nào
87 ngôn ngữ - Tiếng Trung giản thể/phồn thể, Anh, Nhật, Hàn, Việt, Ả Rập, Pháp, Đức, Nga, Tây Ban Nha, Bồ Đào Nha, Ý và nhiều hơn
Batch extraction - xử lý nhiều video cùng lúc (cùng độ phân giải và vị trí subtitle)
Xóa watermark/logo đài - kết hợp với tool
video-subtitle-removertypoMap.json - tự động xóa hoặc thay thế text lặp lại (spam, quảng cáo, lỗi chính tả cố định)
GUI + CLI - có cả giao diện đồ họa và dòng lệnh

Giao diện GUI v2.2.0 - chọn video, điều chỉnh vùng subtitle, chọn mode và chạy
Ba mode trích xuất
VSE cung cấp 3 chế độ để cân bằng giữa tốc độ và độ chính xác:
Mode | GPU | Model OCR | Tốc độ | Độ chính xác |
|---|---|---|---|---|
Fast | Có/Không | Mini | Nhanh nhất | Có thể mất vài subtitle |
Auto (khuyến nghị) | Có GPU | Large | Trung bình | Gần như hoàn hảo |
Auto (khuyến nghị) | Không GPU | Mini | Trung bình | Tốt |
Accurate | Có/Không | Large | Rất chậm | Không bỏ sót subtitle |
Trong hầu hết trường hợp, mode Auto là lựa chọn tối ưu - VSE tự điều chỉnh model dựa trên phần cứng có sẵn.
Hỗ trợ phần cứng đa nền tảng
VSE hỗ trợ 4 chế độ tăng tốc phần cứng:
CUDA (NVIDIA) - khuyến nghị CUDA 11.8 + cuDNN 8.6.0. NVIDIA 50 series cần CUDA 12.8+ nhưng PaddlePaddle 3.3.1 chưa hỗ trợ, tạm dùng DirectML
DirectML (AMD/Intel GPU/APU trên Windows) - ổn định, được khuyến nghị cho RTX 50 series
ONNX (macOS Apple Silicon, AMD ROCm trên Linux) - chưa test chính thức
CPU - cho máy không có GPU rời
So sánh với các công cụ khác
VSE nổi bật so với các lựa chọn thay thế ở một số điểm quan trọng:
vs VideoSubFinder: VideoSubFinder chỉ phát hiện frame có text, không tự OCR - người dùng phải dùng thêm ABBYY FineReader. VSE tích hợp cả hai bước vào một ứng dụng
vs RapidVideOCR: Cùng dùng VideoSubFinder làm detection engine nhưng RapidVideOCR yêu cầu 2 bước chạy tách biệt. VSE làm tự động trong một luồng
vs VideOCR: VideOCR hỗ trợ 200+ ngôn ngữ nhờ Google Lens hybrid mode (cần internet). VSE giới hạn ở 87 ngôn ngữ nhưng hoàn toàn offline - không lo bảo mật dữ liệu
vs SubExtractor (online): SubExtractor giới hạn 2GB/2 giờ cho free tier, paid từ $15/12 phút. VSE miễn phí hoàn toàn, không giới hạn kích thước hay thời lượng
Ai nên dùng ngay
Translator/localization team - tự động hóa bước transcription hardsub, không gõ tay từng dòng
Video editor/content creator - tái sử dụng footage cũ, xóa subtitle gốc, xử lý batch TV series/khóa học
Người dùng quan tâm bảo mật - video nội bộ, phim chưa phát hành, tài liệu nhạy cảm không thể upload server
Developer - tích hợp CLI vào pipeline xử lý video tự động
Hạn chế cần biết
Đường dẫn file - không được chứa ký tự tiếng Trung hoặc dấu cách, nếu không chương trình có thể báo lỗi
macOS - không hỗ trợ CUDA; ONNX mode chưa được test chính thức
NVIDIA RTX 50 series - cần CUDA 12.8+ nhưng Paddle 3.3.1 chưa tương thích, tạm dùng DirectML
Accurate mode - đảm bảo không bỏ sót subtitle nhưng tốc độ rất chậm, chỉ nên dùng khi Auto mode bỏ sót nhiều
Kết
Với 8.800+ GitHub stars, 899 forks, 573 commits trong 5 năm phát triển và phiên bản mới nhất 2.2.0 ra mắt tháng 4/2025, VSE là một trong những công cụ trích xuất hardsub ổn định và đáng tin cậy nhất hiện có. Miễn phí hoàn toàn, Apache-2.0, chạy được trên mọi nền tảng - không có lý do gì để không thử
Protected content...
.
