- Toonflow là AI Agent orchestration engine open-source giúp tự động chuyển tiểu thuyết thành phim hoạt hình ngắn hoàn chỉnh - từ nhân vật, kịch bản đến video.
- Hiện đạt 8.600 GitHub stars, hỗ trợ 7 ngôn ngữ bao gồm tiếng Việt.
- Chi phí sản xuất ~$12-57/tập, demo thực tế hoàn thiện phim 2 phút trong khoảng 2 giờ.
- Thị trường phim ngắn AI toàn cầu ước đạt $14 tỷ năm 2026.
TL;DR
Toonflow là công cụ AI mã nguồn mở (Apache-2.0) do HBAI-Ltd phát triển, tự động biến tiểu thuyết hoặc kịch bản thành phim hoạt hình ngắn hoàn chỉnh - từ tạo nhân vật, viết kịch bản, vẽ phân cảnh đến tổng hợp video. Hiện có 8.600 GitHub stars, chi phí sản xuất ~$12-57/tập, và đã có 19 phiên bản chính thức. Không cần GPU, không cần kinh nghiệm làm phim.
Thị trường phim ngắn AI đang bùng nổ
Tháng 1/2026, cứ 90 giây lại có một bộ phim ngắn AI mới lên sóng tại Trung Quốc. Đến tháng 3, con số này đạt 50.000 tựa mới chỉ trong một tháng trên Douyin - nhiều hơn toàn bộ nội dung Netflix đã phát hành trong lịch sử hoạt động.
Thị trường micro-drama Trung Quốc được dự báo vượt ¥120 tỷ (~$16,5 tỷ) trong năm 2026, lần đầu tiên vượt doanh thu rạp chiếu phim nội địa, phục vụ 660 triệu người dùng. Trên toàn cầu, con số này ước đạt $14 tỷ. Chi phí sản xuất AI chỉ bằng 1/10 so với phim live-action truyền thống, trong khi thời gian làm phim giảm từ 3 tháng xuống còn 1 tháng. via The Next Web
Đây là bối cảnh ra đời của Toonflow - một công cụ open-source giúp bất kỳ ai cũng có thể tham gia vào thị trường này mà không cần đội ngũ sản xuất lớn.
Toonflow là gì
Toonflow không phải là một mô hình AI mà là một AI Agent orchestration engine - nó không tự chứa model nào, mà thay vào đó kết nối và điều phối ba loại dịch vụ AI bên ngoài:
LLM (GPT-4o, Claude 4 Sonnet, DeepSeek V3, Gemini 2.5 Pro, v.v.) - phân tích truyện, viết kịch bản, tạo prompt phân cảnh
Image generation (Nano Banana Pro khuyến nghị vì hỗ trợ 4K và face consistency, hoặc Volcengine/Doubao) - vẽ từng khung hình
Video generation (Sora, Doubao Video/Seedance 2.0) - chuyển ảnh phân cảnh thành video động
Toàn bộ tiến trình chạy trên máy tính thông thường, không cần GPU. Chỉ cần Node.js 24.x và 2GB RAM. via GitHub HBAI-Ltd
Quy trình 4 bước từ văn bản đến video

Pipeline 4 bước của Toonflow
Trích xuất nhân vật tự động: LLM phân tích văn bản gốc, tự động nhận diện và tạo "character card" cho từng nhân vật - bao gồm ngoại hình, tính cách, vai trò trong câu chuyện. Bước này quyết định tính nhất quán của mặt nhân vật trong toàn bộ video.
Tạo kịch bản thông minh: Từng chương được chuyển thành kịch bản có cấu trúc với lời thoại, mô tả cảnh quay và chỉ đạo diễn xuất. Toonflow dùng Chapter Event Graph để theo dõi luồng cốt truyện, tránh mất thông tin khi xử lý văn bản dài.
Phân cảnh AI: Kịch bản được dịch thành prompt chi tiết cho từng khung hình - bố cục tiền/trung/hậu cảnh, góc máy, động tác nhân vật. Sau đó gửi tới model tạo ảnh để vẽ tự động.
Tổng hợp video: Từng ảnh phân cảnh được gửi tới model video (Sora render trong 5-20 giây/clip, Doubao 5-15 giây/clip) để tạo đoạn video động. Toonflow có online editor để chỉnh sửa trước khi xuất bản.
Demo thực tế của nhóm phát triển HBAI: một bộ phim 2 phút được hoàn thiện trong khoảng 2 giờ, dùng Seedance 2.0, GPT Image 2 và Claude Opus 4.6. Tổng chi phí khoảng ¥130 (~$18).
Kiến trúc 3 lớp Agent - điểm khác biệt kỹ thuật
Toonflow dùng kiến trúc ba lớp Agent phối hợp để đảm bảo chất lượng và tính nhất quán:
Decision Layer (Đạo diễn): Lập kế hoạch tổng thể - bao nhiêu cảnh, phong cách nào, nhịp độ ra sao. Tốt nhất với model reasoning mạnh như GPT-4o hoặc Claude 4 Sonnet.
Execution Layer (Ekip): Thực thi từng task cụ thể - viết kịch bản đoạn này, tạo ảnh cảnh kia. Có thể dùng model rẻ hơn để tối ưu chi phí.
Supervision Layer (Biên tập): Kiểm tra chất lượng - nhân vật có nhất quán không, lời thoại có khớp cảnh không, nhịp độ có ổn không. Lớp này là yếu tố phân biệt "chất lượng demo" và "chất lượng sản xuất".
Bên cạnh đó, Infinite Canvas workbench cho phép tổ chức kịch bản, nhân vật, phân cảnh và video node theo dạng canvas tự do, không bị giới hạn bởi luồng tuyến tính. Programmable Vendor System cho phép viết TypeScript logic tùy chỉnh cho từng nhà cung cấp AI trực tiếp trong phần cài đặt - không cần sửa source code, không cần restart.
Chi phí thực tế
Chi phí sản xuất một tập phim tiêu chuẩn (20-50 phân cảnh):
LLM (phân tích nhân vật + kịch bản + prompt phân cảnh): $0,5 - $2
Image generation (20-50 khung): $1 - $5
Video generation (20-50 clip): $10 - $50
Tổng: ~$12 - $57/tập
Nếu tối ưu - dùng Gemini free tier cho event extraction và tạo ảnh, kết hợp OpenAI cho kịch bản - tổng chi phí có thể xuống dưới $1/tập theo một case study thực tế. Video generation vẫn là khoản chi lớn nhất và khó tối ưu nhất; nên kiểm tra kỹ storyboard bằng ảnh trước khi render video.
Cài đặt - 3 cách
Toonflow hỗ trợ ba phương thức triển khai tùy nhu cầu:
Desktop App (khuyến nghị cho người mới): Tải installer từ trang GitHub Releases, giải nén và chạy. Hỗ trợ Windows, macOS, Linux. macOS cần vào Settings - Privacy & Security để cho phép mở ứng dụng do chứng chỉ.
Docker: Sau khi
git clone, chạyyarn docker:localđể build và khởi động. Truy cập qualocalhost:10588/web/index.html.Manual server deployment: Dành cho developer. Yêu cầu Ubuntu 20.04+/CentOS 7+, Node.js 24.x, Yarn, PM2. Clone repo,
yarn install,yarn build, cấu hình PM2 để quản lý tiến trình.
Sau cài đặt, đăng nhập bằng tài khoản mặc định admin / admin123 và cấu hình ba loại API endpoint (LLM, image, video) trong phần Settings.
Giới hạn cần biết
Gemini tool calling không ổn định: Script Agent thất bại nhiều lần với Gemini do
TypeValidationErrorkhi streaming. Nên dùng OpenAI hoặc Claude cho lớp Execution để đảm bảo độ tin cậy.Bug SQLite init: Script khởi tạo có lỗi âm thầm bỏ qua tạo một số bảng (
o_scriptAssets,memories). Nếu gặp lỗi liên quan database, có thể cần tạo thủ công.Phụ thuộc hoàn toàn vào API ngoài: Chi phí, tốc độ và chất lượng phụ thuộc vào các dịch vụ API bên ngoài - cần chuẩn bị sẵn key cho cả ba loại dịch vụ trước khi bắt đầu.
Ai nên thử Toonflow ngay
Toonflow phù hợp nhất cho những ai muốn bước vào thị trường nội dung AI đang tăng trưởng mạnh mà không cần đầu tư vào một ekip sản xuất truyền thống:
Content creator muốn tạo kênh hoạt hình AI trên YouTube hoặc TikTok với nội dung gốc, chất lượng ổn định.
Nhà văn/tác giả muốn thử nghiệm chuyển thể tác phẩm sang dạng visual mà không cần thuê ekip.
Indie filmmaker cần prototype nhanh trước khi đầu tư vào sản xuất thực sự.
Developer muốn học kiến trúc multi-agent AI pipeline từ một dự án open-source có production value thực tế.
Với 8.600 GitHub stars sau chưa đầy một năm và hỗ trợ 7 ngôn ngữ giao diện bao gồm tiếng Việt, Toonflow là một trong những open-source AI content project đáng theo dõi nhất hiện tại. via GitHub - HBAI-Ltd/Toonflow-app | Apiyi.com
