TL;DR

reels-af là một tool open-source chạy 18 AI agents song song để tự động tạo video dọc 1080×1920 từ một URL bài viết hoặc một topic phrase - không cần chỉnh sửa tay, không cần phần mềm edit video. Chi phí khoảng $0.08-0.10/reel (~2.000đ), thời gian ~80 giây. Tool xây dựng trên AgentField, dùng Gemini 3.1 Flash TTS, Gemini 2.5 Flash Image và DeepSeek V4 Pro để reasoning. Giấy phép Apache 2.0.

reels-af: AI tạo Reels tự động bằng 18 agents
reels-af tạo Reels hoàn chỉnh trong 80 giây với chi phí chỉ ~$0.10

Nút thắt khi dùng AI tạo video ngắn

Hầu hết các pipeline AI tạo video ngắn hiện tại mắc ít nhất một trong ba vấn đề:

  • TTS sync drift: âm thanh và phụ đề lệch nhau theo thời gian, đặc biệt khi video dài hơn 20 giây
  • Script nhàm: tool ghi lại văn bản gốc thay vì tìm góc nhìn viral - không có hook, không có curiosity gap
  • Front-load hook: toàn bộ "điểm thú vị" nằm trong 3 giây đầu, sau đó viewer thoát

reels-af giải quyết cả ba bằng kiến trúc multi-agent và một quyết định kiến trúc quan trọng: video được decouple hoàn toàn khỏi word timing - audio là master track, cards drive subtitles, beats drive visuals. Không có priming drift.

Cơ chế: 18 AI agents trong 80 giây

Pipeline có hai đầu vào, hội tụ về cùng một downstream từ phase 3:

Pipeline 6 phases của reels-af từ input đến reel hoàn chỉnh
6 phases: Intake - Script - Audio - Plan - Render - Stitch
  • article_to_reel: nhận URL, extract surprising claim + mechanism + evidence, tự detect content mode (ví dụ: URL từ arXiv sẽ tự switch sang scientific mode với tốc độ 175 WPM và định nghĩa inline các thuật ngữ chuyên ngành)
  • topic_to_reel: nhận topic phrase, fan-out 4 hunter agents (specific_figure / reversal / temporal / cross_domain) tạo 12 candidate essences, critic chọn top 3, 3 narrator agents viết delayed-reveal script, pairwise judge chọn winner

Sau intake, pipeline chạy 4 phase downstream:

  1. Script: tạo Hook → Mechanism → Payoff + inline TTS tags. Schema validator đảm bảo câu cuối echo hook keyword, tạo vòng lặp
  2. Audio: Gemini 3.1 Flash TTS synthesize song song từng câu với 200+ inline audio tags, đo bằng ffprobe, tăng tốc atempo=1.35 - không dùng Whisper/ASR
  3. Plan: 2 helper deterministic (cards cho subtitle layout, beats cho visual planning) + 2 LLM fan-out song song (per-beat image prompts, per-beat optional accents)
  4. Render & Stitch: Gemini 2.5 Flash Image tạo ảnh 720×1280 mỗi beat, ffmpeg ken-burns animation (default, miễn phí), rồi 1 ffmpeg pass concat + libass subtitle burn + AAC mux

Bắt đầu trong 3 lệnh

Cách nhanh nhất là dùng Docker Compose đã bundle sẵn AgentField control plane:

git clone https://github.com/Agent-Field/reels-af
cd reels-af
cp .env.example .env  # thêm OPENROUTER_API_KEY
docker compose up --build

Sau khi stack khởi động, mở http://localhost:8080/ui/ để xem DAG chạy live. Trigger reel đầu tiên:

# Từ URL bài viết
af execute reel-af.article_to_reel -i '{"url": "https://arxiv.org/abs/..."}'  

# Từ topic phrase
af execute reel-af.topic_to_reel -i '{"topic": "fingerprints"}'

Output nằm trong ./output/<run-id>/reel.mp4 kèm result.json chứa hook variant, hunter rankings, judge verdict và per-phase timing. Yêu cầu: Python 3.10+, OpenRouter API key (nạp tối thiểu $5), ffmpeg + ffprobe.

Tính năng nổi bật

  • Word-burst karaoke: hiện từng từ một, 170px bottom-center, sample-accurate - không drift theo thời gian
  • Editorial accents: 6 pattern tự động bao gồm UPPERCASE callout cho số liệu, tên riêng, jargon translation - không cần chỉnh tay
  • Two-tier fallback: image fail → placeholder; Veo fail → ken-burns - reel luôn được assemble dù có lỗi trung gian
  • Veo 3.1 Lite upgrade: bật REEL_AF_USE_VEO=true để dùng Veo 3.1 Lite i2v thay ken-burns, thêm ~$1.10/reel (tổng ~$1.20)
  • Customizable models: đổi reasoning model qua REEL_AF_MODEL, image model qua REEL_AF_IMAGE_MODEL; reasoning có thể trỏ về local vLLM/Ollama endpoint
  • DAG live UI: AgentField control plane render toàn bộ 18-node DAG với prompt, input/output, latency và cost từng node

Chi phí mặc định (OpenRouter list price tháng 05/2026):

PathReasonersWall timeChi phí/reel
article_to_reel10~70-90s~$0.08
topic_to_reel18~85-110s~$0.10

Khác gì các tool tạo video ngắn khác?

Hầu hết các tool trên GitHub trong category reels-generator hoạt động theo một trong hai kiểu: clipping extractor (cắt video dài thành short) hoặc news-to-video bot (TTS + stock footage cứng nhắc). reels-af khác ở chỗ nó hunt viral angle trước, sau đó mới viết script:

  • Topic mode dùng 4 hunter agents tìm góc cụ thể (một nghiên cứu cụ thể, một reversal, một góc temporal, một cross-domain connection) thay vì tóm tắt linear
  • Delayed-reveal narration: tease → common belief → reveal → payoff - cấu trúc retention-optimized thay vì chỉ đọc thông tin
  • Sample-accurate audio không cần ASR - không có drift kể cả với reel 25 giây

Về platform, AgentField khác LangChain/CrewAI ở chỗ nó là production backend (không phải framework): mỗi agent được gán W3C DID cryptographic identity, mọi action được ký và tạo Verifiable Credential audit trail - quan trọng khi agent trigger real-world action.

Giới hạn cần biết

  • Media qua OpenRouter bắt buộc: TTS, image và Veo generation phải route qua OpenRouter ngay cả khi tự host reasoning - configurable per-provider media endpoint đang track ở issue #2
  • Gemini TTS đôi khi quá văn học: hiểu sai [pause] tag hoặc dấu câu → reel chạy quá 25 giây, cần re-run; kiểm tra result.json mục timings_s.tts
  • Veo i2v content moderation: false positive có thể xảy ra trên một beat → fallback ken-burns tự động
  • Chưa có: voice cloning, B-roll insertion, multi-language output, direct publish lên TikTok/Reels/Shorts

Ai nên thử ngay

  • Content creator muốn tự động hóa: nếu bạn cần tạo hàng chục Reels/tuần từ bài viết hoặc research papers, $0.10/reel và 80 giây là con số khó bỏ qua
  • Developer xây automated content pipeline: reels-af expose REST API, không vendor lock-in, dễ tích hợp vào pipeline hiện có
  • Science communicator: scientific mode tự detect khi input là arXiv/paper URL, tự điều chỉnh pacing và định nghĩa thuật ngữ inline
  • Người muốn chạy faceless channel: ken-burns default + word-burst karaoke là đủ cho high-volume; bật Veo khi cần premium output

Không phù hợp nếu bạn cần: video dài > 30 giây, voice cloning, multi-language, hoặc workflow không muốn phụ thuộc OpenRouter cho media.

Kết

reels-af chứng minh rằng multi-agent architecture không chỉ dùng cho research hay coding assistant - nó ứng dụng được vào media production pipeline với chi phí thực sự thấp. 18 agents, 80 giây, $0.10. Phần thú vị nhất là kiến trúc decouple audio/video giải quyết đúng technical debt mà hầu hết pipeline single-pass không xử lý được.

AgentField (platform đứng sau) đang ở v0.1.91 với 2.200 stars và 41 commits/tuần - ecosystem còn nhiều tool tương tự đang được build: SEC-AF (security auditor), PR-AF (PR reviewer), Contract-AF (legal risk analyzer). Nếu bạn cần tích hợp, repo reels-afAgentField đều Apache 2.0.