TL;DR

Đây là Phần 2 của loạt bài về OpenMontage. Phần 1 đã đi qua kiến trúc agent-first, 12 pipeline sản xuất và dual-runtime composition. Phần 2 tập trung vào phần "engine" - provider gateway, quality gate, budget governance, Backlot dashboard và cost thực tế từ các production demo.

Ba con số đáng nhớ: 52 tool production spanning video, image, TTS, music, subtitle, mixer; 7 chiều scoring khi chọn provider; và $0.02 - chi phí thực tế của "The Library at Alexandria", một history elegy 70 giây được sản xuất hoàn chỉnh qua atelier mode chỉ với OpenAI 'ash' narration và Pixabay strings score.

Provider gateway - 52 tool và một API key mở nhiều model

Đây là chỗ mà OpenMontage biến chuyện "phải thử 10 dịch vụ AI video khác nhau" thành "cấu hình 1 key, mở nhiều model". Provider được nhóm theo capability, mỗi capability có một selector tool phía trên và các tool cụ thể của từng provider phía dưới.

Video generation - 14 provider

Cloud API: Kling (high quality, fast), Runway Gen-4 (cinematic quality, Gen-3 Alpha Turbo/Gen-4 Turbo/Aleph), Google Veo 3 (long-form, cinematic - qua fal.ai hoặc HeyGen), Grok Imagine Video (reference-image video mạnh), Higgsfield (multi-model orchestrator với Soul ID cho character consistency), MiniMax (cost-effective), HeyGen (multi-model gateway).

Local GPU (free, offline): WAN 2.1 (1.3B và 14B variant), Hunyuan, CogVideo (2B và 5B), LTX-Video.

Stock: Pexels, Pixabay, Wikimedia Commons.

Image generation - 10 tool

Cloud API: FLUX (state-of-the-art quality qua fal.ai), Google Imagen 4, Grok Imagine Image (image edit, style transfer, multi-image composite), GPT Image 2, Recraft (design-focused).

Local: Stable Diffusion local, ManimCE (mathematical animation).

Stock: Pexels, Pixabay, Unsplash.

Text-to-Speech - 4 provider

ProviderTypeĐiểm mạnh
ElevenLabsCloudChất giọng premium, 10K char/tháng free
Google TTSCloud700+ voice, 50+ language, 1M char/tháng free mỗi voice tier - best cho localization
OpenAI TTSCloudNhanh, giá rẻ
PiperLocalHoàn toàn free, offline, không cần key

Với Google TTS free tier chồng lẫn giữa Standard, WaveNet và Neural2 (1M char mỗi loại), bạn có thể narrate 250+ phút mỗi tháng ở zero cost.

Music, sound và post-production

Music: Suno AI (full song với vocals và lyrics, up to 8 phút), ElevenLabs Music, ElevenLabs SFX.

Post-production (luôn free): FFmpeg (composition, encoding, subtitle burn-in, audio mux), Video Stitch (multi-clip assembly, crossfade, picture-in-picture, spatial layout), Video Trimmer, Audio Mixer (multi-track, ducking, fades), Audio Enhance, Color Grade (LUT-based), Subtitle Gen.

Enhancement: Upscale (Real-ESRGAN), Background Remove (rembg/U2Net), Face Enhance, Face Restore (CodeFormer/GFPGAN).

Analysis: Transcriber (WhisperX với word-level timestamp), Scene Detect, Frame Sampler, Video Understand (CLIP/BLIP-2).

Avatar: Talking Head (SadTalker/MuseTalk), Lip Sync (Wav2Lip).

Bạn làm được gì với zero API key?

Đây là câu hỏi tôi nghĩ đa số bạn đọc đang hỏi. Câu trả lời: khá nhiều. Ngay khi bạn make setup, bạn đã có sẵn:

CapabilityTool freeLàm được gì
NarrationPiper TTSOffline text-to-speech, giọng nghe như người thực
Open footageArchive.org + NASA + Wikimedia CommonsArchive footage free/open, educational media, documentary texture
Extra stockPexels + Unsplash + PixabayFree stock footage/image (developer key free để lấy)
Composition (React)RemotionSpring-animated image scene, text card, stat card, chart, TikTok-style word-level caption, TalkingHead
Composition (HTML/GSAP)HyperFramesKinetic typography, product promo, launch reel, website-to-video, rigged SVG character animation
Post-productionFFmpegEncoding, subtitle burn-in, audio mixing, color grading
SubtitleBuilt-inAuto-generated caption với word-level timing

hai path free:

  1. Image-based video: Piper narrate script của bạn, image cung cấp visual, Remotion animate chúng thành edit chỉn chu.
  2. Real-footage video: pipeline documentary montage build CLIP-searchable corpus từ Archive.org, NASA, Wikimedia Commons và các free-key source như Pexels/Unsplash, rồi cut motion footage thực thành finished video. Prompt cho documentary montage, tone poem hoặc stock-footage collage và nói rõ "use real footage only".

Chưa hết - có cả character animation path local: SVG rig, pose library, GSAP timeline, HyperFrames render cartoon character acting ra projects/<name>/renders/final.mp4. Không cần cloud video gen, không cần API key.

Sáu production demo với cost thực tế

README của repo bao gồm 6 video demo được sản xuất qua chính OpenMontage, mỗi cái đi kèm breakdown pipeline, provider và cost. Đây là ammunition đắt giá để bạn hình dung ngân sách:

VideoTypePipeline chi tiếtCost
SIGNAL FROM TOMORROWCinematic sci-fi trailerConcept + script + scene plan + Veo motion clip + soundtrack + Remotion compositionFull setup
THE LAST BANANA60s Pixar-style animated short6 Kling v3 clip qua fal.ai + Google Chirp3-HD narration + royalty-free piano + TikTok word-level caption + Remotion$1.33
The Library at Alexandria70s history elegy5 hand-authored scene (atelier mode) + OpenAI 'ash' narration + free Pixabay strings score$0.02
VOID - Neural InterfaceProduct ad4 gpt-image-1 + TTS + auto-sourced royalty-free music + WhisperX word-level subtitle + Remotion data viz$0.69
Afternoon in CandylandGhibli-style anime12 FLUX image với multi-image crossfade + cinematic camera motion (zoom, pan, Ken Burns) + sparkle/petal/firefly particle + ambient music với auto-detected energy offset$0.15
Mori no SeishinGhibli forest spirit anime12 FLUX image với parallax crossfade + drift/pan camera + firefly/petal particle + cinematic vignette$0.15

Chi tiết đáng chú ý: The Library at Alexandria chỉ tốn $0.02 vì atelier mode dùng free score và OpenAI TTS. Đây là bằng chứng cho luận điểm chính của atelier: khác biệt không đến từ ngân sách, mà đến từ việc từ chối reuse creative component.

7-dimension scored provider selector

Mỗi tool selection - video gen, image gen, TTS, music - đều chạy qua scoring engine 7 chiều. Provider thắng và điểm số của nó được log trong decision trail với mọi alternative đã cân nhắc.

DimensionWeightÝ nghĩa
Task fit30%Provider có capability đúng cho task này không (motion, still, edit, extend...)
Output quality20%Chất lượng benchmark của provider
Control features15%Có ref image, keyframe, camera control, style lock không
Reliability15%Uptime, error rate, gen success rate
Cost efficiency10%Cost/second hoặc cost/image ở quality tier tương đương
Latency5%Wall-clock từ submit đến finish
Continuity5%Đã dùng provider này ở scene trước chưa (character/style consistency)

Selector cũng normalize loose brief context trước khi score. Nếu agent chỉ biết "Pixar-style animated short với character consistency", selector expand thành scorer-friendly intent và style signal - bạn không cần phải shape task_context hoàn hảo trước.

Output của selector còn surface agent_skills của provider được chọn - agent đọc ngay Layer 3 provider skill tương ứng trước khi viết prompt. Đây là feedback loop mà tôi thấy ít framework khác làm.

Quality gate - vì sao output không rơi vào "animated PowerPoint"

OpenMontage đối xử với video production như engineering thực thụ - có quality gate, audit trail và enforcement ở mọi stage.

Human approval gate

Proposal, script, scene plan, generated asset và publish đều pause chờ sign-off của user. Checkpoint writer sẽ reject một stage đã gate được đánh dấu "completed" nếu không có approval record. Mỗi checkpoint bị supersede được archive nên audit trail (bao gồm gate transition) sống sót qua revision.

Pre-compose validation

Trước khi render, gate này chặn nếu:

  • Delivery promise bị vi phạm (ví dụ video "motion-led" mà 80% là still image)
  • Slideshow risk score critical
  • Renderer family missing

Nó bắt broken plan trước khi bạn tốn GPU time.

Post-render self-review

Sau mỗi render, runtime chạy:

  • ffprobe validation
  • Extract frame ở 4 vị trí để check black frame và broken overlay
  • Analyze audio level cho silence và clipping
  • Verify delivery promise được honor
  • Check subtitle presence

Nếu review fail, video không được present cho bạn.

Slideshow risk scoring - 6 chiều

Repetition, decorative visual, weak motion, shot intent, typography overreliance, unsupported cinematic claim. Đây là gate chống "animated PowerPoint" - hầu hết output AI video open source rơi vào bẫy này vì không có mechanic phát hiện nó.

Source media inspection

Khi bạn cung cấp footage của mình, hệ thống probe từng file (resolution, codec, audio channel, duration) và build planning implication trước một quyết định sáng tạo nào. Không có chuyện agent "hallucinate content từ tên file".

Decision audit trail và budget governance

Mọi major creative và technical choice - provider selection, style/playbook, music track, voice, renderer family, mọi fallback hoặc downgrade - đều được log với alternative đã cân nhắc, confidence score và reasoning. Cumulative decision log tồn tại xuyên suốt mọi stage nên bạn có thể trace chính xác vì sao output trông như vậy.

Budget control hoạt động theo pattern estimate → reserve → reconcile:

  • Estimate trước execution - agent nói cho bạn biết cost trước khi tiêu
  • Reserve - lock fund trước call
  • Reconcile sau - ghi lại actual spend
  • Ba mode: observe (chỉ track), warn (log overrun), cap (hard limit)
  • Per-action approval threshold default $0.50 - trên mức này agent phải hỏi bạn
  • Total budget cap default $10, hoàn toàn configurable

Không có surprise bill. Agent nói cost trước khi tiêu.

Backlot - living storyboard cho pipeline agentic

Chat cho bạn biết agent nói gì. Backlot cho bạn thấy production đang thực sự làm gì - dashboard local tự fill khi pipeline chạy. Stage sáng dần, script hiện thành trang screenplay, scene card lấp lánh khi asset generate, và mọi provider decision cùng USD đã tiêu đều lên tường.

Backlot live board hiện các stage đang chạy và asset đang generate
Backlot live board - mỗi stage hiển thị realtime, decision log ở rail phải, cost snapshot ở đầu.

Khi production start, agent tự mở board. Không setup, không reporting - board derive mọi thứ từ project file mà pipeline đã ghi.

Điểm quan trọng nhất: storyboard là gate approval thực sự. Asset generation pause tại scene-by-scene contact sheet - take, prompt, per-asset cost, quality score - để bạn approve visual trước khi render, không phải sau khi đã quá muộn.

Backlot storyboard filmstrip với take và render option
Storyboard filmstrip - mỗi cell hiện các take của cùng scene, prompt và cost. Bạn duyệt visual trước khi tốn thời gian render final.

Creative gate hold cho tới khi bạn reply. Board hiển thị cái gì đang chờ và vì sao, bạn reply trong chat:

Backlot script gate đang chờ approval
Script gate - agent trình bày script draft, listing scene, chờ user reply approve trong chat trước khi tiếp tục scene_plan.

Mọi production trên máy bạn, live-first, đều trong library:

Backlot library liệt kê mọi project trên máy
Library - list mọi project OpenMontage trên máy, live-first, có thể click vào để mở board của project đó.

Sau khi run xong, hit ▶ REPLAY RUN và toàn bộ production replay từ timestamp, scrubbable end-to-end. Ba lệnh cơ bản:

python -m backlot open                  # library - mọi project trên đĩa
python -m backlot open <project-id>     # live board của một production
python scripts/backlot_simulate_run.py  # chưa có production? xem simulated run

Agent compatibility - Claude Code, Cursor, Copilot, Windsurf, Codex

OpenMontage làm việc với bất kỳ AI coding assistant nào có khả năng đọc file và execute Python. Instruction file dedicated cho:

PlatformConfig file
Claude CodeCLAUDE.md
CursorCURSOR.md + .cursor/rules/
GitHub CopilotCOPILOT.md + .github/copilot-instructions.md
CodexCODEX.md
Windsurf.windsurfrules

Tất cả platform file point về shared AGENT_GUIDE.md (operating guide và agent contract) và PROJECT_CONTEXT.md (architecture reference).

Roadmap: local LLM support qua OllamaLM Studio - chạy full production pipeline không cần cloud LLM.

So sánh với Runway ML, Fliki, Synthesia

Tiêu chíOpenMontageRunway MLFliki / Synthesia
ModelOpen source, self-hostSaaS, gen model độc quyềnSaaS UI-first
Pipeline12 pipeline research-to-renderVideo gen + timeline editorTemplate-driven
Provider lock-inKhông - swap tự do, 7-dim selectorLocked vào Runway modelLocked vào Fliki/Synthesia backend
CostZero-key mode hoặc pay-per-asset$12-$95/tháng subscription$28-$99/tháng subscription
Real footageCó - Archive.org, Wikimedia, Pexels + CLIP indexChỉ AI-generated (Gen-4)Chủ yếu template
Quality gateDelivery promise + post-render self-reviewManual reviewManual review
Audit trailFull decision logKhông exposeKhông expose
ExtendAdd pipeline YAML + skill markdownKhôngKhông

Không phải OpenMontage tốt hơn về mọi mặt. Runway Gen-4 có clip chất lượng cinema nhất hiện tại. Fliki thắng về ease-of-use nếu bạn không phải developer. Điểm khác biệt là OpenMontage cho bạn ownership: bạn chạy trên máy mình, chọn provider, kiểm soát cost, extend logic. Đối với studio hoặc solo creator muốn scale mà không mất control, đây là điểm ăn tiền.

Bắt đầu - setup và prompt đầu tiên

Prerequisites

  • Python 3.10+ - từ python.org
  • FFmpeg - brew install ffmpeg hoặc sudo apt install ffmpeg
  • Node.js 18+ - từ nodejs.org
  • AI coding assistant - Claude Code, Cursor, Copilot, Windsurf hoặc Codex

Install

git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

Nếu không có make, path thủ công cho macOS/Linux:

python3 -m venv .venv && source .venv/bin/activate \
  && python -m pip install -r requirements.txt \
  && cd remotion-composer && npm install && cd .. \
  && python -m pip install piper-tts \
  && cp .env.example .env

Mở project trong AI coding assistant và nói:

"Làm cho tôi video 60 giây giải thích cách neural network học"

Hoặc nếu muốn real-footage path:

"Làm cho tôi documentary montage 75 giây về city life in the rain. Dùng real footage only, no narration, elegiac tone, có music."

Agent sẽ research, generate image, viết narration với voice direction, tìm royalty-free background music, burn word-level subtitle và render final video. Trước khi bạn thấy bất cứ gì, hệ thống chạy multi-point self-review - ffprobe validation, frame sampling, audio level analysis, delivery promise verification, subtitle check.

Add API key (optional - càng nhiều key càng nhiều tool)

# .env - mọi key đều optional

# Image + video gateway:
FAL_KEY=your-key               # FLUX + Kling + Veo + MiniMax + Recraft

# Free stock media:
PEXELS_API_KEY=your-key
PIXABAY_API_KEY=your-key
UNSPLASH_ACCESS_KEY=your-key

# Music:
SUNO_API_KEY=your-key          # Full song, instrumental, any genre

# Voice và image:
ELEVENLABS_API_KEY=your-key    # Premium TTS + music + SFX
OPENAI_API_KEY=your-key        # OpenAI TTS + GPT Image 2
XAI_API_KEY=your-key           # Grok Imagine image + video
GOOGLE_API_KEY=your-key        # Imagen 4 + Google TTS 700+ voice

# Video provider:
HEYGEN_API_KEY=your-key        # Multi-model gateway (VEO, Sora, Runway, Kling)
RUNWAY_API_KEY=your-key        # Runway Gen-4 direct

Nếu có GPU, unlock free local video gen:

make install-gpu

# Trong .env:
VIDEO_GEN_LOCAL_ENABLED=true
VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b  # hoặc wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b

Cách chọn pipeline đầu tiên

Nếu bạn chưa biết bắt đầu từ đâu, đây là mapping nhanh:

  • Bạn có script/topic muốn giải thíchanimated-explainer
  • Bạn có podcast/video dài muốn cắt shortclip-factory hoặc podcast-repurpose
  • Bạn có talking-head footage của mìnhtalking-head
  • Bạn muốn cinematic trailer/mood piececinematic
  • Bạn muốn video motion graphics kinetic typographyanimation
  • Bạn muốn documentary montage từ real footagedocumentary-montage
  • Bạn có video muốn translate sang 10 ngôn ngữlocalization-dub
  • Bạn muốn character cartoon animation localcharacter-animation

Có thể make demo để render 3 zero-key demo ngay và nhìn output trước khi commit vào một pipeline cụ thể.

Style playbook và platform profile

Style playbook define visual language của production. YAML playbook control typography, color palette, motion style, audio profile và quality rule. Agent đọc playbook và apply nhất quán qua mọi asset generated.

PlaybookPhù hợp cho
Clean ProfessionalCorporate, educational, SaaS
Flat Motion GraphicsSocial media, TikTok, startup
Minimalist DiagramTechnical deep-dive, architecture

Platform output profile built-in cho mọi platform lớn:

  • YouTube Landscape 1920x1080 (16:9)
  • YouTube 4K 3840x2160 (16:9)
  • YouTube Shorts / Instagram Reels / TikTok 1080x1920 (9:16)
  • Instagram Feed 1080x1080 (1:1)
  • LinkedIn 1920x1080 (16:9)
  • Cinematic 2560x1080 (21:9)

Kết

OpenMontage không phải là "AI video generator khác". Đó là một cách tiếp cận triết lý khác về việc build product agentic: intelligence sống trong instruction file, tool chỉ là tay, agent là orchestrator. Bạn có full ownership - repo trên máy bạn, provider bạn chọn, budget bạn set, extension bạn tự thêm.

Với zero API key bạn đã có narration Piper, real-footage montage, Remotion animation và HyperFrames kinetic typography. Với FAL_KEY $0.15/video mở FLUX + Kling + Veo. Với full setup $1-$3/video có broadcast-quality output.

Nếu bạn là developer, agent-first architecture cho bạn tất cả những gì bạn thường phải build lại từ đầu: pipeline manifest, provider selector, cost governance, decision audit, quality gate, dashboard. Nếu bạn là solo creator, dashboard Backlot và budget cap giữ chi phí trong control.

Đọc lại Phần 1 để nắm kiến trúc agent-first, 12 pipeline và 3-layer knowledge nếu bạn nhảy thẳng vào Phần 2.

Repo và documentation: via calesthio/OpenMontage.