Meituan Mở Nguồn LongCat-Video-Avatar 1.5 - AI Tạo Video Talking Head Đánh Bại HeyGen và Kling

TL;DR

Meituan vừa open-source LongCat-Video-Avatar 1.5 - framework tạo video talking head từ ảnh + audio, giấy phép MIT.
Nâng cấp audio encoder lên Whisper-Large-v3, hỗ trợ 99 ngôn ngữ, inference chỉ còn 8 bước (trước là 20).
Trên benchmark EvalTalker: win rate +65.9% so với Kling Avatar 2.0, +61.1% so với OmniHuman-1.5, +54.3% so với HeyGen.
Chạy local, batch generation, không cần SaaS hay API trả phí.

LongCat-Video-Avatar 1.5 là gì

Ngày 21/05/2026, team LongCat của Meituan - tập đoàn giao đồ ăn lớn nhất Trung Quốc - phát hành LongCat-Video-Avatar 1.5 lên GitHub và Hugging Face với giấy phép MIT. Đây là phiên bản nâng cấp toàn diện của framework tạo video "talking head" dựa trên audio, tức là bạn chỉ cần một tấm ảnh tĩnh cộng với một đoạn audio, model sẽ tự tạo ra video có nhân vật nói chuyện với lip sync, chớp mắt, và chuyển động đầu tự nhiên.

Framework hỗ trợ 3 task chính:

AT2V (Audio-Text-to-Video): tạo video từ audio và mô tả văn bản
ATI2V (Audio-Text-Image-to-Video): thêm ảnh tham chiếu để giữ identity nhân vật
Video Continuation: kéo dài video hiện có mà không bị drift khuôn mặt

Không chỉ người thật - model xử lý được anime, nhân vật động vật, multi-person dialogue nơi nhiều avatar cùng hội thoại trong một video.

Nâng cấp kỹ thuật đáng chú ý

Điểm khác biệt lớn nhất giữa v1.5 và phiên bản trước nằm ở hai chỗ:

1. Audio encoder mới - Whisper-Large-v3: Thay thế Wav2Vec2 bằng Whisper-Large-v3 giúp lip sync chính xác hơn đáng kể, đặc biệt với các ngôn ngữ không phải tiếng Anh. Kết quả là model hỗ trợ 99 ngôn ngữ với chất lượng đồng đều - một điểm yếu mà HeyGen và Kling vẫn còn gặp khó ở các ngôn ngữ châu Á.

2. Step distillation - 8 bước inference: Dùng kỹ thuật DMD2-based distillation, số bước denoising giảm từ 20 xuống còn 8 NFE. Model hỗ trợ cả 480P lẫn 720P với INT8 quantization, giúp inference nhanh hơn mà không mất quá nhiều chất lượng.

Ngoài ra, multi-segment rolling inference giải quyết vấn đề drift khuôn mặt khi tạo video dài - model chia video thành các segment liên tiếp và duy trì identity coherence xuyên suốt, không bị lệch khuôn mặt như các thế hệ trước.

Demo LongCat-Video-Avatar 1.5 trên HuggingFace Spaces - upload ảnh + audio, nhận video lip sync ngay

Benchmark so với đối thủ

Meituan công bố kết quả đánh giá trên EvalTalker benchmark với 770 người đánh giá phổ thông và 10 domain expert, phủ các kịch bản phức tạp từ tin tức, giáo dục đến giải trí:

Model	Win rate so với LongCat 1.5
Kling Avatar 2.0	-65.9%
OmniHuman-1.5	-61.1%
HeyGen	-54.3%

Về độ ổn định video: tỉ lệ biến dạng khuôn mặt chỉ 23.1%, biến dạng nền 9.4%, tỉ lệ frame skip thấp nhất nhóm ở 0.8%. Điểm single-person đạt 3.336, multi-person 2.730 (InfiniteTalk chỉ đạt 2.339).

Lưu ý quan trọng: đây là vendor benchmark do Meituan tự công bố, chưa có bên thứ ba độc lập kiểm chứng. Dù vậy, các con số về frame stability và lip sync issue rate có thể đo lường khách quan hơn so với user preference survey.

Ai nên thử ngay

LongCat-Video-Avatar 1.5 phù hợp nhất cho những use case sau:

E-commerce & marketing đa ngôn ngữ: Tạo video sản phẩm với avatar thuyết trình bằng nhiều ngôn ngữ từ một script duy nhất - không cần thuê người đọc hay dùng studio.
YouTuber và content creator tránh camera: Dùng ảnh đại diện cố định cộng với audio để tạo video hoàn chỉnh, bảo vệ danh tính.
Giảng viên online và virtual instructor: Tạo video bài giảng với avatar nhất quán, chạy batch cho hàng chục video cùng lúc.
Developer và researcher: MIT License cho phép tích hợp tự do vào sản phẩm thương mại hoặc nghiên cứu.

Ngược lại, nếu bạn cần một SaaS turnkey không cần tự deploy và không có GPU mạnh, HeyGen hay Kling vẫn là lựa chọn thực tế hơn trong thời điểm này.

Thử ngay

Không có GPU? Thử demo trực tiếp trên HuggingFace Spaces không cần cài đặt. Có GPU? Clone repo về và chạy local với batch mode để tạo hàng loạt video.

Với MIT License và chất lượng lip sync vượt các dịch vụ trả phí trong benchmark nội bộ, LongCat-Video-Avatar 1.5 là thứ đáng thử ngay nếu bạn đang làm video content đa ngôn ngữ hoặc tích hợp talking head vào sản phẩm của mình.