TL;DR
Hermes-video-agent là pipeline video tự động end-to-end vừa được dev @trungkts29 mở mã trên GitHub (ntclick/Hermes-video-agent) theo giấy phép MIT. Bỏ vào một URL YouTube/TikTok/Douyin, một AI agent dùng function-calling tự điều phối các bước: tải video, transcribe bằng Whisper local, dịch bằng Kimi K2.6 hoặc Hermes 3, OCR thay text trên màn bằng EasyOCR, ghép phụ đề song ngữ bằng FFmpeg, rồi tự đăng lên X qua Playwright. Hỗ trợ 5 ngôn ngữ (vi, en, zh, ja, ko), chạy được trên VPS 2 CPU / 4GB RAM, không cần API key cho phần STT.
Có gì mới
Khác với các pipeline ETL truyền thống ghép yt-dlp + whisper + ffmpeg bằng cron, Hermes-video-agent đưa toàn bộ luồng cho một AI agent quyết định. Dev chỉ định nghĩa system prompt và một tập tools; agent tự gọi tool nào, theo thứ tự nào, retry ra sao thông qua function-calling. Đây là điểm khác biệt căn bản: thêm tính năng mới = thêm 1 hàm trong functions.py, không phải viết lại DAG.
Tác giả còn đính kèm Script Extractor mode: thay vì publish trực tiếp, agent rewrite clip viral thành kịch bản 5 cảnh dạng cinematic kèm prompt ảnh per-scene, sẵn sàng feed vào Veo, Sora hoặc FLUX để dựng clip mới hoàn toàn.
Vì sao đáng chú ý
Pipeline này gói lại đúng workflow mà nhiều SaaS đang tính phí theo phút (Submagic, Opus Clip, Captions.ai) — và đẩy nó về máy bạn, miễn phí. Với creator solo, agency nhỏ, hay team growth làm content arbitrage xuyên biên giới, đây là bộ công cụ thay thế cả stack Whisper + DeepL + CapCut + Buffer chỉ bằng một repo Python + Next.js.
Mặt khác, đây cũng là một case study đẹp về việc dùng AI agent function-calling để thay thế logic if/else: dòng Hermes của Nous Research được train riêng trên dataset hermes-function-calling-v1, đạt độ chính xác gọi hàm khoảng 90% — đủ tin cậy để ủy quyền điều phối pipeline thật.
Stack & thông số kỹ thuật
| Lớp | Công nghệ | Vai trò |
|---|---|---|
| Speech-to-text | OpenAI Whisper (local) | Transcribe audio, không cần API key |
| Brain / dịch | Kimi K2.6 hoặc Hermes 3 qua OpenRouter | Agent reasoning + function-calling + dịch |
| OCR | EasyOCR (local) | Phát hiện và thay text on-screen |
| Video | FFmpeg | Burn phụ đề song ngữ, keyframe, encode |
| Publishing | Playwright headless | Auto-post X/Twitter |
| Cover AI (optional) | fal.ai FLUX | Sinh ảnh/video bìa |
| Backend | FastAPI + async SQLAlchemy + SQLite | API + persistence |
| Frontend | Next.js 15 + React 19 + TypeScript | UI điều khiển |
Yêu cầu deploy tối thiểu: Python 3.11+, Node.js 20+, FFmpeg trên PATH, 2 CPU / 4GB RAM / 20GB disk. Codebase: ~63.6% Python, 26.3% TypeScript, 8.4% CSS.
So sánh nhanh
| Hạng mục | Hermes-video-agent | SaaS clip (Submagic/Opus) | Cron yt-dlp + whisper + ffmpeg |
|---|---|---|---|
| Chi phí | Free (MIT) + token Kimi/OpenRouter | $10–$50/tháng theo phút | Free, tốn dev-time |
| Điều phối | AI agent function-calling | Closed UI | Bash/Python script cứng |
| Đa ngôn ngữ | vi, en, zh, ja, ko | Tuỳ plan | Tự code thêm |
| Thay text on-screen | OCR + replace | Một số có | Phải tự build |
| Auto-publish | Có (Playwright) | Có | Tự tích hợp X API |
| Self-host | Có, 4GB RAM đủ | Không | Có |
Use case đáng thử
- Content arbitrage xuyên biên giới: pull clip viral Douyin → dịch tiếng Việt/Anh → đăng X trong vài phút.
- Creator solo: bỏ luôn công đoạn sub và dịch tay — 1 URL vào, 1 clip ra.
- Multi-lingual: 1 nguồn, 5 locale output — mở rộng audience không cần ekip.
- Repurpose viral: Script Extractor biến clip 30s thành kịch bản 5 cảnh + prompt ảnh, feed thẳng vào Veo/Sora để dựng video gốc mới.
- Agency / growth team: 1 VPS 4GB thay cho cả stack Whisper + DeepL + CapCut + Buffer.
Hạn chế & điểm cần cân nhắc
- Repo còn rất sớm: tại thời điểm khảo sát chỉ ~3 sao, 1 fork, 23 commit — kỳ vọng có breaking change và rough edges.
- Auto-post qua Playwright không phải X API chính thức — dễ vỡ khi X đổi UI.
- Hardware: Whisper + EasyOCR chạy CPU được nhưng chậm với clip dài; khuyến nghị clip ngắn (<5 phút).
- OCR text replacement phụ thuộc font & background; đồ hoạ phức tạp dễ vỡ.
- Tuân thủ ToS: auto-fetch TikTok/Douyin/YouTube và repost có thể vi phạm điều khoản nền tảng — rủi ro do user chịu.
- Chi phí ẩn: repo MIT free, nhưng vẫn tốn token OpenRouter/Kimi cho dịch và optional fal.ai cho cover.
Tiếp theo & cách bắt đầu
Hướng phát triển tự nhiên: thêm output language, chuyển sang X API chính thức (giảm phụ thuộc Playwright), hỗ trợ video dài hơn, mở thêm publish target (TikTok, YouTube Shorts). Với người muốn thử ngay, clone repo, set OPENROUTER_API_KEY, cài FFmpeg, dán URL — toàn bộ pipeline tự chạy.
Nguồn: github.com/ntclick/Hermes-video-agent, X post gốc, Hermes Agent docs (Nous Research), Hermes Function Calling.