TL;DR

Video Subtitle Extractor (VSE) là công cụ GUI open-source giúp trích xuất hardcoded subtitle (chữ burned vào video) thành file .srt hoặc .txt - hoàn toàn trên máy local, không gửi dữ liệu lên bất kỳ server nào. Hỗ trợ 87 ngôn ngữ, chạy trên Windows/macOS/Linux, tăng tốc GPU đa nền tảng, miễn phí tuyệt đối.

Vấn đề cần giải quyết

Subtitle "cứng" (hardsub) là loại phụ đề được đốt trực tiếp vào từng frame video - bạn không thể bật/tắt, không thể copy, không thể dịch máy từ file SRT. Để chuyển hardsub thành text, cách truyền thống là:

  • Dùng VideoSubFinder phát hiện frame có text, rồi chạy thêm ABBYY FineReader để OCR - quy trình 2 bước tách biệt, tốn thời gian

  • Upload lên dịch vụ online (SubExtractor...) - giới hạn 2GB/2 giờ, phải trả tiền cho video dài, lo ngại bảo mật dữ liệu

VSE giải quyết cả hai điểm yếu này bằng cách tích hợp toàn bộ pipeline thành một ứng dụng duy nhất chạy offline.

Tính năng chính

  • OCR local 100% - không cần API Baidu, Alibaba hay bất kỳ dịch vụ OCR online nào

  • 87 ngôn ngữ - Tiếng Trung giản thể/phồn thể, Anh, Nhật, Hàn, Việt, Ả Rập, Pháp, Đức, Nga, Tây Ban Nha, Bồ Đào Nha, Ý và nhiều hơn

  • Batch extraction - xử lý nhiều video cùng lúc (cùng độ phân giải và vị trí subtitle)

  • Xóa watermark/logo đài - kết hợp với tool video-subtitle-remover

  • typoMap.json - tự động xóa hoặc thay thế text lặp lại (spam, quảng cáo, lỗi chính tả cố định)

  • GUI + CLI - có cả giao diện đồ họa và dòng lệnh

Giao diện GUI của Video Subtitle Extractor v2.2.0

Giao diện GUI v2.2.0 - chọn video, điều chỉnh vùng subtitle, chọn mode và chạy

Ba mode trích xuất

VSE cung cấp 3 chế độ để cân bằng giữa tốc độ và độ chính xác:

Mode

GPU

Model OCR

Tốc độ

Độ chính xác

Fast

Có/Không

Mini

Nhanh nhất

Có thể mất vài subtitle

Auto (khuyến nghị)

Có GPU

Large

Trung bình

Gần như hoàn hảo

Auto (khuyến nghị)

Không GPU

Mini

Trung bình

Tốt

Accurate

Có/Không

Large

Rất chậm

Không bỏ sót subtitle

Trong hầu hết trường hợp, mode Auto là lựa chọn tối ưu - VSE tự điều chỉnh model dựa trên phần cứng có sẵn.

Hỗ trợ phần cứng đa nền tảng

VSE hỗ trợ 4 chế độ tăng tốc phần cứng:

  • CUDA (NVIDIA) - khuyến nghị CUDA 11.8 + cuDNN 8.6.0. NVIDIA 50 series cần CUDA 12.8+ nhưng PaddlePaddle 3.3.1 chưa hỗ trợ, tạm dùng DirectML

  • DirectML (AMD/Intel GPU/APU trên Windows) - ổn định, được khuyến nghị cho RTX 50 series

  • ONNX (macOS Apple Silicon, AMD ROCm trên Linux) - chưa test chính thức

  • CPU - cho máy không có GPU rời

So sánh với các công cụ khác

VSE nổi bật so với các lựa chọn thay thế ở một số điểm quan trọng:

  • vs VideoSubFinder: VideoSubFinder chỉ phát hiện frame có text, không tự OCR - người dùng phải dùng thêm ABBYY FineReader. VSE tích hợp cả hai bước vào một ứng dụng

  • vs RapidVideOCR: Cùng dùng VideoSubFinder làm detection engine nhưng RapidVideOCR yêu cầu 2 bước chạy tách biệt. VSE làm tự động trong một luồng

  • vs VideOCR: VideOCR hỗ trợ 200+ ngôn ngữ nhờ Google Lens hybrid mode (cần internet). VSE giới hạn ở 87 ngôn ngữ nhưng hoàn toàn offline - không lo bảo mật dữ liệu

  • vs SubExtractor (online): SubExtractor giới hạn 2GB/2 giờ cho free tier, paid từ $15/12 phút. VSE miễn phí hoàn toàn, không giới hạn kích thước hay thời lượng

Ai nên dùng ngay

  • Translator/localization team - tự động hóa bước transcription hardsub, không gõ tay từng dòng

  • Video editor/content creator - tái sử dụng footage cũ, xóa subtitle gốc, xử lý batch TV series/khóa học

  • Người dùng quan tâm bảo mật - video nội bộ, phim chưa phát hành, tài liệu nhạy cảm không thể upload server

  • Developer - tích hợp CLI vào pipeline xử lý video tự động

Hạn chế cần biết

  • Đường dẫn file - không được chứa ký tự tiếng Trung hoặc dấu cách, nếu không chương trình có thể báo lỗi

  • macOS - không hỗ trợ CUDA; ONNX mode chưa được test chính thức

  • NVIDIA RTX 50 series - cần CUDA 12.8+ nhưng Paddle 3.3.1 chưa tương thích, tạm dùng DirectML

  • Accurate mode - đảm bảo không bỏ sót subtitle nhưng tốc độ rất chậm, chỉ nên dùng khi Auto mode bỏ sót nhiều

Kết

Với 8.800+ GitHub stars, 899 forks, 573 commits trong 5 năm phát triển và phiên bản mới nhất 2.2.0 ra mắt tháng 4/2025, VSE là một trong những công cụ trích xuất hardsub ổn định và đáng tin cậy nhất hiện có. Miễn phí hoàn toàn, Apache-2.0, chạy được trên mọi nền tảng - không có lý do gì để không thử

Protected content...

.

via GitHub - YaoFANGUK/video-subtitle-extractor