- NarratoAI là công cụ mã nguồn mở miễn phí, dựa trên LLM, tự động hóa toàn bộ pipeline từ phân tích cảnh, viết script, lồng tiếng đến tạo phụ đề chỉ với một cú nhấp.
- Phiên bản v0.8.1 nâng cấp thành AI Commentary Workbench hoàn chỉnh cho phim, short drama và phim tài liệu.
- Render video 10 phút 1080p tốn khoảng 0.1 tệ qua SiliconFlow - không cần GPU.
- Gần 10.000 stars GitHub sau chưa đầy 2 năm phát triển.
TL;DR
- NarratoAI là công cụ Python mã nguồn mở, kết nối LLM + vision AI + TTS thành pipeline tự động giải thích video - không cần GPU, không watermark, không subscription.
- Phiên bản v0.8.1 (tháng 6/2026) là bản cập nhật lớn nhất, bổ sung workflow hoàn chỉnh cho short drama, phim/TV, phim tài liệu và xuất draft trực tiếp sang CapCut/JianYing.
- Chi phí render thực tế: ~0.1 tệ cho video 10 phút 1080p qua SiliconFlow - rẻ hơn khoảng 8 lần so với dùng riêng lẻ GPT-4o + ElevenLabs.
- License phi thương mại - chỉ dùng cho học tập và nghiên cứu. Muốn dùng thương mại cần liên hệ tác giả.
Bài toán mà NarratoAI giải quyết
Làm một video giải thích phim thủ công là quá trình tốn thời gian phi lý: xem toàn bộ phim để ghi chú, viết script theo từng cảnh, thuê hoặc tự thu âm lồng tiếng, căn chỉnh audio khớp với từng đoạn clip, đốt phụ đề, rồi mới export. Với video 10 phút, người tạo nội dung thường mất 3-5 giờ chỉ cho khâu biên tập - chưa kể thời gian xem phim ban đầu.
NarratoAI sinh ra để giải quyết bài toán này bằng cách kết nối toàn bộ các bước vào một pipeline tự động duy nhất. Dự án được lập trình viên linyqh khởi tạo vào tháng 8/2024, fork từ MoneyPrinterTurbo và bổ sung chức năng phân tích video bằng vision AI. Sau chưa đầy 2 năm, dự án đã đạt gần 10.000 stars và hơn 1.300 forks trên GitHub, với cộng đồng Discord hơn 6.000 thành viên.
Điểm khác biệt so với các công cụ tương tự là NarratoAI không chỉ tạo script theo prompt - nó thực sự hiểu nội dung video qua vision model, rồi viết bình luận dựa trên những gì AI quan sát được từ hình ảnh.
Pipeline hoạt động như thế nào
NarratoAI chạy qua 6 bước tự động, mỗi bước dùng tổ hợp model chuyên biệt:
- Import video - kéo thả hoặc dán URL. FFmpeg tự convert về proxy 1080p/720p.
- Phân tích cảnh - Qwen2-VL của Alibaba quét từng frame, trích xuất cảnh, khuôn mặt, hành động và phụ đề gốc trong video.
- Viết script - DeepSeek R1/V3 hoặc GPT-4o tạo script bình luận theo chuỗi prompt: tóm tắt tổng thể, góc cảm xúc, rồi hook 15 giây. Phiên bản v0.8.1 thêm khả năng tìm kiếm web để bổ sung thông tin về nhân vật, bối cảnh câu chuyện.
- Tổng hợp giọng đọc - lựa chọn từ nhiều TTS engine: Edge-TTS, Azure, DouBao, Tencent Cloud, ElevenLabs, hoặc voice cloning qua IndexTTS2 và OmniVoice.
- Tạo phụ đề - WhisperX, FunASR hoặc FireRedASR2 tạo timestamp cấp từng từ, hỗ trợ highlight kiểu karaoke, căn chỉnh riêng cho màn hình ngang và dọc.
- Export - xuất MP4 hoàn chỉnh kèm smart jump-cut, BGM ducking tự động, hoặc draft XML cho CapCut/JianYing.
Những tính năng đáng chú ý
Short-Drama Mode và workflow cho phim/TV
Từ v0.6.0 (tháng 5/2025), NarratoAI thêm chế độ Short-Drama Mode chuyên biệt: AI phát hiện cấu trúc kịch bản - mở đầu, cao trào, cliffhanger - và tự cắt video ngang thành reel dọc 9:16 kèm phụ đề punch-line cho TikTok và Reels. Phiên bản v0.8.1 mở rộng thêm workflow hoàn chỉnh cho phim điện ảnh, phim truyền hình và phim tài liệu (documentary) với pipeline phân tích frame-by-frame riêng biệt.
Voice cloning với bảo vệ deepfake
Kể từ v0.7.1 (tháng 8/2025), NarratoAI hỗ trợ nhân bản giọng đọc qua IndexTTS2 và OmniVoice. Để tránh lạm dụng, hệ thống bắt buộc người dùng cung cấp mẫu giọng 30 giây và ký xác nhận đồng ý bằng văn bản trước khi kích hoạt tính năng này.
Xuất draft CapCut/JianYing - điểm cộng lớn cho editor
Thay vì lock-in vào pipeline của mình, NarratoAI xuất timeline dạng XML tương thích CapCut. Editor mở draft, thấy toàn bộ clip đã được cắt ghép theo script AI, chỉ cần tinh chỉnh những gì không ưng - tiết kiệm phần lớn thời gian dựng ban đầu.
Chi phí render bất ngờ thấp
So sánh chi phí xử lý 1 phút video 1080p:
| Dịch vụ | Model | Giá/phút |
|---|---|---|
| SiliconFlow (DeepSeek-V3) | Script + voice | ~$0.014 |
| OpenAI (GPT-4o) | Script only | ~$0.12 |
| ElevenLabs | Voice only | ~$0.18 |
| NarratoAI bundle | All-in-one | ~$0.05 |
Đăng ký tài khoản SiliconFlow mới nhận 14-16 tệ credit miễn phí, đủ để render khoảng 140-160 phút video - đủ thử đúng nghĩa trước khi quyết định nạp thêm.
Cài đặt và bắt đầu
Yêu cầu hệ thống: tối thiểu CPU 4 nhân và 8GB RAM. GPU không bắt buộc nhưng RTX 3060 12GB cho tốc độ nhanh gấp 3 lần. Hệ điều hành: Windows 10/11 hoặc macOS 11.0 trở lên, Python 3.12+.
Ba cách triển khai:
- Docker (khuyến nghị macOS/Linux):
git clone https://github.com/linyqh/NarratoAI.git && docker compose up -d, mởhttp://localhost:8501. - Windows installer: tải file tích hợp qua WeChat Public Account "NarratoAI助手", chạy
update.batđể cập nhật phiên bản. - Python thủ công:
pip install -r requirements.txt, copyconfig.example.tomlthànhconfig.toml, điền API key, chạystreamlit run webui.py --server.maxUploadSize=2048.
Ai không muốn cài đặt gì cả có thể dùng phiên bản cloud tại narratoai.cn.
Giới hạn cần biết
- Phi thương mại: license chỉ cho phép dùng cho mục đích học tập và nghiên cứu. Dùng thương mại cần liên hệ tác giả để xin cấp phép riêng.
- Giới hạn job đồng thời: free tier chỉ cho phép 3 job chạy cùng lúc.
- Script AI cần review: văn phong bình luận của AI đôi khi cần chỉnh thủ công, đặc biệt với phim có nhiều lớp ngữ nghĩa hoặc ngữ cảnh văn hóa phức tạp.
- Roadmap còn dang dở: nhận diện khuôn mặt nhân vật tự động và tự khớp script theo voiceover vẫn chưa hoàn thành trong bản hiện tại.
- Cảnh giác với phiên bản giả: tác giả đã phát cảnh báo chính thức - có người đổi tên NarratoAI và bán lại trên TikTok, Bilibili. Phần mềm gốc hoàn toàn miễn phí.
Kết
NarratoAI là một trong số ít dự án mã nguồn mở thực sự giải quyết được bài toán kỹ thuật khó: kết nối vision AI, LLM và TTS thành một pipeline hoàn chỉnh mà người dùng thông thường có thể chạy được. Phiên bản v0.8.x - đặc biệt là v0.8.1 với AI Commentary Workbench - đã đủ chín để làm công cụ hỗ trợ chính cho nhóm làm content phim, drama, hoặc tài liệu.
Đây chưa phải giải pháp thay thế hoàn toàn cho editor người dùng - script AI vẫn cần review, voice cloning cần mẫu giọng. Nhưng như một công cụ tạo rough-cut ban đầu để tiết kiệm 70-80% thời gian biên tập, NarratoAI đang ở mức đáng thử nghiêm túc.
Dự án vẫn cập nhật mạnh: từ v0.6.0 đến v0.8.3 chỉ trong vòng hơn 1 năm, mỗi bản phát hành đều thêm tính năng thực chất. Nếu bạn làm content liên quan đến phim, drama hay video giải thích, đây là thời điểm tốt để thử nghiêm túc.
Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?
Tất cả nội dung tại đạo quán đều miễn phí. Đạo hữu chỉ cần nhập email của mình để đọc tiếp. Nói KHÔNG với Spam. Huỷ subcribe lúc nào đạo hữu thích.
nếu không muốn nhận newsletter thì có thể nhập mail phụ
