Paper2Video: AI tự động biến bài báo khoa học thành video presentation

TL;DR

Paper2Video là hệ thống AI mã nguồn mở từ Show Lab (NUS) có thể tự động biến một bài báo khoa học thành video presentation hoàn chỉnh - gồm slide, giọng nói của tác giả, avatar nói chuyện và con trỏ chuột động - chỉ với chi phí $0.001/video. Được chấp nhận tại NeurIPS 2025 Workshop, đạt 2,200+ GitHub stars ngay sau khi ra mắt.

Paper2Video - pipeline đa agent tạo video từ bài báo khoa học

Vấn đề muôn thuở của nhà nghiên cứu

Mỗi bài báo khoa học được chấp nhận tại hội nghị đều kèm theo một yêu cầu không được viết ra: bạn phải làm video presentation. Và đây không phải chuyện nhỏ - thiết kế 16 slide, quay lại, chỉnh sửa, render - dễ mất cả ngày cho một video 6 phút.

Với hàng chục nghìn bài báo được publish mỗi năm, đây là bottleneck khổng lồ. Paper2Video ra đời để xóa bỏ bottleneck đó.

Dự án đến từ Show Lab - nhóm nghiên cứu thuộc National University of Singapore (NUS), nơi đã cho ra đời nhiều công trình nổi tiếng trong lĩnh vực video generation và multimodal AI. Paper2Video không chỉ là một tool - đây còn là benchmark đầu tiên gồm 101 cặp paper-video do chính tác giả tạo, kèm 4 metric đánh giá mới được thiết kế riêng cho bài toán này.

PaperTalker hoạt động như thế nào

Hệ thống dùng kiến trúc 4-agent song song, mỗi agent chuyên một nhiệm vụ:

Slide Builder - dùng LLM (GPT-4.1 hoặc Gemini 2.5 Pro) để sinh code LaTeX Beamer. Module "Tree Search Visual Choice" tạo nhiều variant layout, render, rồi dùng VLM chọn layout đẹp nhất - giải quyết vấn đề LLM không nhạy cảm với font-size và spacing.
Subtitle Builder - tạo phụ đề theo từng câu với visual-focus prompts, căn chỉnh thời gian qua VLM.
Talker Builder - tổng hợp giọng nói cá nhân hóa qua F5-TTS, dựng talking-head avatar qua Hallo2 hoặc FantasyTalking.
Cursor Builder - xác định vị trí con trỏ trên slide qua UI-TARS (computer-use model) + WhisperX để đồng bộ với lời thoại.

Input cần có: file LaTeX của bài báo + ảnh chân dung tác giả + clip âm thanh tham chiếu. Output: video ~6 phút với slide + giọng nói + avatar + con trỏ.

Con số đáng chú ý

Chỉ số	Giá trị
Chi phí API/video	$0.001 (vs $1.667 của Veo3 - rẻ hơn 1,667 lần)
PresentQuiz accuracy	84.2% - vượt human-made 10%
Tốc độ sinh	~48 phút/video (nhanh hơn 6x so với sequential)
Số slide trung bình	16 slide, dài ~6 phút 15 giây
GitHub stars	2,200+ ngay sau khi ra mắt
Benchmark	101 paper-video pairs (ML/CV/NLP conferences)

Đặc biệt ở metric PresentQuiz - đo lường mức độ khán giả hấp thu thông tin sau khi xem video - PaperTalker đạt 84.2% trong khi video do con người làm chỉ đạt 73.8%. Lý do: hệ thống cover toàn bộ nội dung một cách có hệ thống, không bỏ sót phần nào như người trình bày vẫn hay làm khi "cắt bớt cho gọn".

So sánh với các công cụ khác

Tính năng	Veo3	PresentAgent	PaperTalker
Slide	Không	Có	Có
Phụ đề	Không	Có	Có
Con trỏ chuột	Không	Không	Có
Talking head	Có	Không	Có
Chi phí/video	~$1.667	N/A	$0.001

Các mô hình end-to-end như Veo3 không xử lý được nội dung học thuật dày đặc (bảng số, công thức toán, nhiều hình). PaperTalker được thiết kế riêng cho loại nội dung này.

Giới hạn cần biết

Yêu cầu LaTeX source - không hoạt động với bài báo chỉ có PDF. Đây là hạn chế lớn nhất với nhiều ngành ngoài ML/CV/NLP.
Phần cứng nặng - cần NVIDIA A6000 (48GB VRAM) để self-host. Không có dịch vụ cloud chính thức.
~48 phút/video - dù đã song song hóa, vẫn chưa phù hợp cho workflow cần kết quả nhanh.
Con trỏ tĩnh - mỗi câu phụ đề chỉ có một vị trí con trỏ cố định, chưa có chuyển động liên tục.
Metadata tác giả bắt buộc (ảnh + audio) để dùng talking-head mode. Nếu không cần avatar, dùng pipeline_light.py để chạy nhanh hơn.

Ai nên dùng ngay

Researcher nộp hội nghị - tạo video presentation trong vài giờ thay vì vài ngày.
Ban tổ chức hội nghị - batch-generate preview video cho tất cả paper được chấp nhận.
Lab và trường đại học - tự động hóa việc phổ biến nghiên cứu qua social media với video nhất quán.
Science communicator - tạo explainer video từ bài báo arXiv mà không cần liên hệ tác giả gốc (dùng light mode).

Nguồn & tài nguyên

Paper2Video hoàn toàn mã nguồn mở: code theo MIT License, dataset 101 paper-video pairs theo CC-BY-SA 4.0 trên HuggingFace (ZaynZhu/Paper2Video). Bài báo được chấp nhận tại NeurIPS 2025 Scaling Environments for Agents Workshop (tháng 10/2025).

Nguồn: github.com/showlab/Paper2Video, arXiv:2510.05096.