#9622026-05-08
WhisperX: Tăng tốc Whisper 70 lần, timestamp từng từ và nhận diện người nói
WhisperX đạt tốc độ 70x real-time với large-v2 nhờ batched inference và VAD Cut & Merge, nhanh hơn Whisper gốc 11.8 lần trên benchmark chính thức. Timestamp word-level chính xác ±50ms, so với ±500ms của Whisper - cải thiện 10 lần. DER ~8% trong điều kiện chuẩn, tích hợp pyannote-audio để phân biệt từng người nói. Miễn phí hoàn toàn, BSD-2-Clause license, 21.8k GitHub stars.