- Provider gateway 52 tool của OpenMontage cho phép bạn làm video hoàn chỉnh không cần API key nào - Piper TTS local + Archive.org + Remotion.
- Với FAL_KEY (~$0.15 mỗi video 30 giây) mở khoá FLUX, Kling, Veo.
- 7-dim scored selector chọn provider tự động.
- Post-render self-review chạy ffprobe, frame extraction, audio analysis.
- Backlot living storyboard biến approval thành gate visual.
- Sáu production demo có cost thực từ $0.02 tới $2.50.
TL;DR
Đây là Phần 2 của loạt bài về OpenMontage. Phần 1 đã đi qua kiến trúc agent-first, 12 pipeline sản xuất và dual-runtime composition. Phần 2 tập trung vào phần "engine" - provider gateway, quality gate, budget governance, Backlot dashboard và cost thực tế từ các production demo.
Ba con số đáng nhớ: 52 tool production spanning video, image, TTS, music, subtitle, mixer; 7 chiều scoring khi chọn provider; và $0.02 - chi phí thực tế của "The Library at Alexandria", một history elegy 70 giây được sản xuất hoàn chỉnh qua atelier mode chỉ với OpenAI 'ash' narration và Pixabay strings score.
Provider gateway - 52 tool và một API key mở nhiều model
Đây là chỗ mà OpenMontage biến chuyện "phải thử 10 dịch vụ AI video khác nhau" thành "cấu hình 1 key, mở nhiều model". Provider được nhóm theo capability, mỗi capability có một selector tool phía trên và các tool cụ thể của từng provider phía dưới.
Video generation - 14 provider
Cloud API: Kling (high quality, fast), Runway Gen-4 (cinematic quality, Gen-3 Alpha Turbo/Gen-4 Turbo/Aleph), Google Veo 3 (long-form, cinematic - qua fal.ai hoặc HeyGen), Grok Imagine Video (reference-image video mạnh), Higgsfield (multi-model orchestrator với Soul ID cho character consistency), MiniMax (cost-effective), HeyGen (multi-model gateway).
Local GPU (free, offline): WAN 2.1 (1.3B và 14B variant), Hunyuan, CogVideo (2B và 5B), LTX-Video.
Stock: Pexels, Pixabay, Wikimedia Commons.
Image generation - 10 tool
Cloud API: FLUX (state-of-the-art quality qua fal.ai), Google Imagen 4, Grok Imagine Image (image edit, style transfer, multi-image composite), GPT Image 2, Recraft (design-focused).
Local: Stable Diffusion local, ManimCE (mathematical animation).
Stock: Pexels, Pixabay, Unsplash.
Text-to-Speech - 4 provider
| Provider | Type | Điểm mạnh |
|---|---|---|
| ElevenLabs | Cloud | Chất giọng premium, 10K char/tháng free |
| Google TTS | Cloud | 700+ voice, 50+ language, 1M char/tháng free mỗi voice tier - best cho localization |
| OpenAI TTS | Cloud | Nhanh, giá rẻ |
| Piper | Local | Hoàn toàn free, offline, không cần key |
Với Google TTS free tier chồng lẫn giữa Standard, WaveNet và Neural2 (1M char mỗi loại), bạn có thể narrate 250+ phút mỗi tháng ở zero cost.
Music, sound và post-production
Music: Suno AI (full song với vocals và lyrics, up to 8 phút), ElevenLabs Music, ElevenLabs SFX.
Post-production (luôn free): FFmpeg (composition, encoding, subtitle burn-in, audio mux), Video Stitch (multi-clip assembly, crossfade, picture-in-picture, spatial layout), Video Trimmer, Audio Mixer (multi-track, ducking, fades), Audio Enhance, Color Grade (LUT-based), Subtitle Gen.
Enhancement: Upscale (Real-ESRGAN), Background Remove (rembg/U2Net), Face Enhance, Face Restore (CodeFormer/GFPGAN).
Analysis: Transcriber (WhisperX với word-level timestamp), Scene Detect, Frame Sampler, Video Understand (CLIP/BLIP-2).
Avatar: Talking Head (SadTalker/MuseTalk), Lip Sync (Wav2Lip).
Bạn làm được gì với zero API key?
Đây là câu hỏi tôi nghĩ đa số bạn đọc đang hỏi. Câu trả lời: khá nhiều. Ngay khi bạn make setup, bạn đã có sẵn:
| Capability | Tool free | Làm được gì |
|---|---|---|
| Narration | Piper TTS | Offline text-to-speech, giọng nghe như người thực |
| Open footage | Archive.org + NASA + Wikimedia Commons | Archive footage free/open, educational media, documentary texture |
| Extra stock | Pexels + Unsplash + Pixabay | Free stock footage/image (developer key free để lấy) |
| Composition (React) | Remotion | Spring-animated image scene, text card, stat card, chart, TikTok-style word-level caption, TalkingHead |
| Composition (HTML/GSAP) | HyperFrames | Kinetic typography, product promo, launch reel, website-to-video, rigged SVG character animation |
| Post-production | FFmpeg | Encoding, subtitle burn-in, audio mixing, color grading |
| Subtitle | Built-in | Auto-generated caption với word-level timing |
Có hai path free:
- Image-based video: Piper narrate script của bạn, image cung cấp visual, Remotion animate chúng thành edit chỉn chu.
- Real-footage video: pipeline documentary montage build CLIP-searchable corpus từ Archive.org, NASA, Wikimedia Commons và các free-key source như Pexels/Unsplash, rồi cut motion footage thực thành finished video. Prompt cho documentary montage, tone poem hoặc stock-footage collage và nói rõ "use real footage only".
Chưa hết - có cả character animation path local: SVG rig, pose library, GSAP timeline, HyperFrames render cartoon character acting ra projects/<name>/renders/final.mp4. Không cần cloud video gen, không cần API key.
Sáu production demo với cost thực tế
README của repo bao gồm 6 video demo được sản xuất qua chính OpenMontage, mỗi cái đi kèm breakdown pipeline, provider và cost. Đây là ammunition đắt giá để bạn hình dung ngân sách:
| Video | Type | Pipeline chi tiết | Cost |
|---|---|---|---|
| SIGNAL FROM TOMORROW | Cinematic sci-fi trailer | Concept + script + scene plan + Veo motion clip + soundtrack + Remotion composition | Full setup |
| THE LAST BANANA | 60s Pixar-style animated short | 6 Kling v3 clip qua fal.ai + Google Chirp3-HD narration + royalty-free piano + TikTok word-level caption + Remotion | $1.33 |
| The Library at Alexandria | 70s history elegy | 5 hand-authored scene (atelier mode) + OpenAI 'ash' narration + free Pixabay strings score | $0.02 |
| VOID - Neural Interface | Product ad | 4 gpt-image-1 + TTS + auto-sourced royalty-free music + WhisperX word-level subtitle + Remotion data viz | $0.69 |
| Afternoon in Candyland | Ghibli-style anime | 12 FLUX image với multi-image crossfade + cinematic camera motion (zoom, pan, Ken Burns) + sparkle/petal/firefly particle + ambient music với auto-detected energy offset | $0.15 |
| Mori no Seishin | Ghibli forest spirit anime | 12 FLUX image với parallax crossfade + drift/pan camera + firefly/petal particle + cinematic vignette | $0.15 |
Chi tiết đáng chú ý: The Library at Alexandria chỉ tốn $0.02 vì atelier mode dùng free score và OpenAI TTS. Đây là bằng chứng cho luận điểm chính của atelier: khác biệt không đến từ ngân sách, mà đến từ việc từ chối reuse creative component.
7-dimension scored provider selector
Mỗi tool selection - video gen, image gen, TTS, music - đều chạy qua scoring engine 7 chiều. Provider thắng và điểm số của nó được log trong decision trail với mọi alternative đã cân nhắc.
| Dimension | Weight | Ý nghĩa |
|---|---|---|
| Task fit | 30% | Provider có capability đúng cho task này không (motion, still, edit, extend...) |
| Output quality | 20% | Chất lượng benchmark của provider |
| Control features | 15% | Có ref image, keyframe, camera control, style lock không |
| Reliability | 15% | Uptime, error rate, gen success rate |
| Cost efficiency | 10% | Cost/second hoặc cost/image ở quality tier tương đương |
| Latency | 5% | Wall-clock từ submit đến finish |
| Continuity | 5% | Đã dùng provider này ở scene trước chưa (character/style consistency) |
Selector cũng normalize loose brief context trước khi score. Nếu agent chỉ biết "Pixar-style animated short với character consistency", selector expand thành scorer-friendly intent và style signal - bạn không cần phải shape task_context hoàn hảo trước.
Output của selector còn surface agent_skills của provider được chọn - agent đọc ngay Layer 3 provider skill tương ứng trước khi viết prompt. Đây là feedback loop mà tôi thấy ít framework khác làm.
Quality gate - vì sao output không rơi vào "animated PowerPoint"
OpenMontage đối xử với video production như engineering thực thụ - có quality gate, audit trail và enforcement ở mọi stage.
Human approval gate
Proposal, script, scene plan, generated asset và publish đều pause chờ sign-off của user. Checkpoint writer sẽ reject một stage đã gate được đánh dấu "completed" nếu không có approval record. Mỗi checkpoint bị supersede được archive nên audit trail (bao gồm gate transition) sống sót qua revision.
Pre-compose validation
Trước khi render, gate này chặn nếu:
- Delivery promise bị vi phạm (ví dụ video "motion-led" mà 80% là still image)
- Slideshow risk score critical
- Renderer family missing
Nó bắt broken plan trước khi bạn tốn GPU time.
Post-render self-review
Sau mỗi render, runtime chạy:
ffprobevalidation- Extract frame ở 4 vị trí để check black frame và broken overlay
- Analyze audio level cho silence và clipping
- Verify delivery promise được honor
- Check subtitle presence
Nếu review fail, video không được present cho bạn.
Slideshow risk scoring - 6 chiều
Repetition, decorative visual, weak motion, shot intent, typography overreliance, unsupported cinematic claim. Đây là gate chống "animated PowerPoint" - hầu hết output AI video open source rơi vào bẫy này vì không có mechanic phát hiện nó.
Source media inspection
Khi bạn cung cấp footage của mình, hệ thống probe từng file (resolution, codec, audio channel, duration) và build planning implication trước một quyết định sáng tạo nào. Không có chuyện agent "hallucinate content từ tên file".
Decision audit trail và budget governance
Mọi major creative và technical choice - provider selection, style/playbook, music track, voice, renderer family, mọi fallback hoặc downgrade - đều được log với alternative đã cân nhắc, confidence score và reasoning. Cumulative decision log tồn tại xuyên suốt mọi stage nên bạn có thể trace chính xác vì sao output trông như vậy.
Budget control hoạt động theo pattern estimate → reserve → reconcile:
- Estimate trước execution - agent nói cho bạn biết cost trước khi tiêu
- Reserve - lock fund trước call
- Reconcile sau - ghi lại actual spend
- Ba mode:
observe(chỉ track),warn(log overrun),cap(hard limit) - Per-action approval threshold default $0.50 - trên mức này agent phải hỏi bạn
- Total budget cap default $10, hoàn toàn configurable
Không có surprise bill. Agent nói cost trước khi tiêu.
Backlot - living storyboard cho pipeline agentic
Chat cho bạn biết agent nói gì. Backlot cho bạn thấy production đang thực sự làm gì - dashboard local tự fill khi pipeline chạy. Stage sáng dần, script hiện thành trang screenplay, scene card lấp lánh khi asset generate, và mọi provider decision cùng USD đã tiêu đều lên tường.

Khi production start, agent tự mở board. Không setup, không reporting - board derive mọi thứ từ project file mà pipeline đã ghi.
Điểm quan trọng nhất: storyboard là gate approval thực sự. Asset generation pause tại scene-by-scene contact sheet - take, prompt, per-asset cost, quality score - để bạn approve visual trước khi render, không phải sau khi đã quá muộn.

Creative gate hold cho tới khi bạn reply. Board hiển thị cái gì đang chờ và vì sao, bạn reply trong chat:

Mọi production trên máy bạn, live-first, đều trong library:

Sau khi run xong, hit ▶ REPLAY RUN và toàn bộ production replay từ timestamp, scrubbable end-to-end. Ba lệnh cơ bản:
python -m backlot open # library - mọi project trên đĩa
python -m backlot open <project-id> # live board của một production
python scripts/backlot_simulate_run.py # chưa có production? xem simulated runAgent compatibility - Claude Code, Cursor, Copilot, Windsurf, Codex
OpenMontage làm việc với bất kỳ AI coding assistant nào có khả năng đọc file và execute Python. Instruction file dedicated cho:
| Platform | Config file |
|---|---|
| Claude Code | CLAUDE.md |
| Cursor | CURSOR.md + .cursor/rules/ |
| GitHub Copilot | COPILOT.md + .github/copilot-instructions.md |
| Codex | CODEX.md |
| Windsurf | .windsurfrules |
Tất cả platform file point về shared AGENT_GUIDE.md (operating guide và agent contract) và PROJECT_CONTEXT.md (architecture reference).
Roadmap: local LLM support qua Ollama và LM Studio - chạy full production pipeline không cần cloud LLM.
So sánh với Runway ML, Fliki, Synthesia
| Tiêu chí | OpenMontage | Runway ML | Fliki / Synthesia |
|---|---|---|---|
| Model | Open source, self-host | SaaS, gen model độc quyền | SaaS UI-first |
| Pipeline | 12 pipeline research-to-render | Video gen + timeline editor | Template-driven |
| Provider lock-in | Không - swap tự do, 7-dim selector | Locked vào Runway model | Locked vào Fliki/Synthesia backend |
| Cost | Zero-key mode hoặc pay-per-asset | $12-$95/tháng subscription | $28-$99/tháng subscription |
| Real footage | Có - Archive.org, Wikimedia, Pexels + CLIP index | Chỉ AI-generated (Gen-4) | Chủ yếu template |
| Quality gate | Delivery promise + post-render self-review | Manual review | Manual review |
| Audit trail | Full decision log | Không expose | Không expose |
| Extend | Add pipeline YAML + skill markdown | Không | Không |
Không phải OpenMontage tốt hơn về mọi mặt. Runway Gen-4 có clip chất lượng cinema nhất hiện tại. Fliki thắng về ease-of-use nếu bạn không phải developer. Điểm khác biệt là OpenMontage cho bạn ownership: bạn chạy trên máy mình, chọn provider, kiểm soát cost, extend logic. Đối với studio hoặc solo creator muốn scale mà không mất control, đây là điểm ăn tiền.
Bắt đầu - setup và prompt đầu tiên
Prerequisites
- Python 3.10+ - từ
python.org - FFmpeg -
brew install ffmpeghoặcsudo apt install ffmpeg - Node.js 18+ - từ
nodejs.org - AI coding assistant - Claude Code, Cursor, Copilot, Windsurf hoặc Codex
Install
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setupNếu không có make, path thủ công cho macOS/Linux:
python3 -m venv .venv && source .venv/bin/activate \
&& python -m pip install -r requirements.txt \
&& cd remotion-composer && npm install && cd .. \
&& python -m pip install piper-tts \
&& cp .env.example .envMở project trong AI coding assistant và nói:
"Làm cho tôi video 60 giây giải thích cách neural network học"
Hoặc nếu muốn real-footage path:
"Làm cho tôi documentary montage 75 giây về city life in the rain. Dùng real footage only, no narration, elegiac tone, có music."
Agent sẽ research, generate image, viết narration với voice direction, tìm royalty-free background music, burn word-level subtitle và render final video. Trước khi bạn thấy bất cứ gì, hệ thống chạy multi-point self-review - ffprobe validation, frame sampling, audio level analysis, delivery promise verification, subtitle check.
Add API key (optional - càng nhiều key càng nhiều tool)
# .env - mọi key đều optional
# Image + video gateway:
FAL_KEY=your-key # FLUX + Kling + Veo + MiniMax + Recraft
# Free stock media:
PEXELS_API_KEY=your-key
PIXABAY_API_KEY=your-key
UNSPLASH_ACCESS_KEY=your-key
# Music:
SUNO_API_KEY=your-key # Full song, instrumental, any genre
# Voice và image:
ELEVENLABS_API_KEY=your-key # Premium TTS + music + SFX
OPENAI_API_KEY=your-key # OpenAI TTS + GPT Image 2
XAI_API_KEY=your-key # Grok Imagine image + video
GOOGLE_API_KEY=your-key # Imagen 4 + Google TTS 700+ voice
# Video provider:
HEYGEN_API_KEY=your-key # Multi-model gateway (VEO, Sora, Runway, Kling)
RUNWAY_API_KEY=your-key # Runway Gen-4 directNếu có GPU, unlock free local video gen:
make install-gpu
# Trong .env:
VIDEO_GEN_LOCAL_ENABLED=true
VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # hoặc wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5bCách chọn pipeline đầu tiên
Nếu bạn chưa biết bắt đầu từ đâu, đây là mapping nhanh:
- Bạn có script/topic muốn giải thích →
animated-explainer - Bạn có podcast/video dài muốn cắt short →
clip-factoryhoặcpodcast-repurpose - Bạn có talking-head footage của mình →
talking-head - Bạn muốn cinematic trailer/mood piece →
cinematic - Bạn muốn video motion graphics kinetic typography →
animation - Bạn muốn documentary montage từ real footage →
documentary-montage - Bạn có video muốn translate sang 10 ngôn ngữ →
localization-dub - Bạn muốn character cartoon animation local →
character-animation
Có thể make demo để render 3 zero-key demo ngay và nhìn output trước khi commit vào một pipeline cụ thể.
Style playbook và platform profile
Style playbook define visual language của production. YAML playbook control typography, color palette, motion style, audio profile và quality rule. Agent đọc playbook và apply nhất quán qua mọi asset generated.
| Playbook | Phù hợp cho |
|---|---|
| Clean Professional | Corporate, educational, SaaS |
| Flat Motion Graphics | Social media, TikTok, startup |
| Minimalist Diagram | Technical deep-dive, architecture |
Platform output profile built-in cho mọi platform lớn:
- YouTube Landscape 1920x1080 (16:9)
- YouTube 4K 3840x2160 (16:9)
- YouTube Shorts / Instagram Reels / TikTok 1080x1920 (9:16)
- Instagram Feed 1080x1080 (1:1)
- LinkedIn 1920x1080 (16:9)
- Cinematic 2560x1080 (21:9)
Kết
OpenMontage không phải là "AI video generator khác". Đó là một cách tiếp cận triết lý khác về việc build product agentic: intelligence sống trong instruction file, tool chỉ là tay, agent là orchestrator. Bạn có full ownership - repo trên máy bạn, provider bạn chọn, budget bạn set, extension bạn tự thêm.
Với zero API key bạn đã có narration Piper, real-footage montage, Remotion animation và HyperFrames kinetic typography. Với FAL_KEY $0.15/video mở FLUX + Kling + Veo. Với full setup $1-$3/video có broadcast-quality output.
Nếu bạn là developer, agent-first architecture cho bạn tất cả những gì bạn thường phải build lại từ đầu: pipeline manifest, provider selector, cost governance, decision audit, quality gate, dashboard. Nếu bạn là solo creator, dashboard Backlot và budget cap giữ chi phí trong control.
Đọc lại Phần 1 để nắm kiến trúc agent-first, 12 pipeline và 3-layer knowledge nếu bạn nhảy thẳng vào Phần 2.
Repo và documentation: via calesthio/OpenMontage.
Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?
Tất cả nội dung tại đạo quán đều miễn phí. Đạo hữu chỉ cần nhập email của mình để đọc tiếp. Nói KHÔNG với Spam. Huỷ subcribe lúc nào đạo hữu thích.
nếu không muốn nhận newsletter thì có thể nhập mail phụ
