video-use: Chỉnh sửa video bằng AI agent - không cần timeline thủ công

TL;DR

video-use là Claude Code skill open-source 100% (MIT license) cho phép chỉnh sửa video hoàn toàn bằng hội thoại với AI agent. Nhóm browser-use - đã nổi tiếng với công cụ tự động hóa trình duyệt cùng tên - phát hành ngày 19/4/2026. Dự án đã đạt 8.726 sao GitHub và 1.276 forks chỉ trong vài tuần.

Ý tưởng cốt lõi: drop raw footage vào folder, chat với Claude Code (hoặc Codex, Hermes), nhận lại final.mp4. Không timeline, không preset, không menu.

Video editing truyền thống đang lãng phí quá nhiều

Bất kỳ ai làm content đều biết cảm giác này: quay xong 10 take, phải ngồi scrub từng file để tìm câu nói tốt nhất, rồi mới bắt đầu cắt. Nếu dùng AI frame-dumping, bài toán còn tệ hơn - xử lý 30.000 frames nhân 1.500 tokens mỗi frame = 45 triệu tokens nhiễu.

Với video-use, con số đó giảm xuống còn 12KB text.

LLM không xem video - nó đọc video

Đây là điểm đột phá về kiến trúc. video-use dùng mô hình 2 lớp:

Layer 1 - Audio transcript (luôn load): Gọi ElevenLabs Scribe 1 lần per source file, nhận về word-level timestamps, speaker diarization, và audio events như (laughter), (applause), (sigh). Toàn bộ takes pack vào file takes_packed.md ~12KB - đây là giao diện đọc chính của LLM.
Layer 2 - Visual composite (theo yêu cầu): timeline_view tạo filmstrip + waveform + word labels PNG, chỉ được gọi tại các decision points như ambiguous pauses hay retake comparisons - không phải quét liên tục.

Cùng nguyên lý với browser-use: thay vì cho LLM xem screenshot, bạn cho nó đọc DOM có cấu trúc. Nhưng ở đây là cho video.

Claude Code đang chạy video-use - kiểm tra transcript và đề xuất chiến lược edit

Quick start - 1 lệnh setup

Paste prompt này vào Claude Code:

Set up https://github.com/browser-use/video-use for me.

Read install.md first to install this repo, wire up ffmpeg, register the skill
with whichever agent you're running under, and set up the ElevenLabs API key —
ask me to paste it when you need it.

Agent tự clone repo, cài dependencies, đăng ký skill, rồi hỏi bạn ElevenLabs API key (lấy tại elevenlabs.io/app/settings/api-keys). Sau đó chỉ cần trỏ agent vào folder footage:

cd /path/to/your/videos
claude

Và gõ: edit these into a launch video. Agent kiểm kê sources, đề xuất chiến lược, chờ bạn OK, rồi produce edit/final.mp4.

Muốn chạy always-on từ VPS hoặc Telegram: dùng Browser Use Box.

Tính năng chính

Cắt filler words tự động: Phát hiện và xóa umm, uh, false starts, dead space giữa các takes.
30ms audio fade tại mọi cut: Đảm bảo không có audible pop tại ranh giới cắt - hard rule không thể bỏ qua.
Auto color grading: Warm cinematic, neutral punch, hoặc bất kỳ FFmpeg chain tùy chỉnh nào.
Subtitle và animation overlay: Burn subtitle phong cách tùy chỉnh (mặc định 2-word UPPERCASE chunks); generate animation overlay qua HyperFrames, Remotion, Manim, hoặc PIL - mỗi animation chạy song song trong sub-agent riêng.
Self-eval loop: Sau render, timeline_view tự kiểm tra output tại mọi cut boundary để phát hiện visual jump, audio pop, subtitle bị overlay che. Fail thì fix + re-render, tối đa 3 lần trước khi show preview.
Session memory: Mọi session lưu vào project.md - tuần sau mở lại vẫn nhớ ngữ cảnh.

Toàn bộ hoạt động theo quy trình: Transcribe → Pack → LLM Reasons → EDL → Render → Self-Eval. Bạn phê duyệt strategy trước khi agent đụng vào cut.

Giới hạn cần biết

Phụ thuộc transcript accuracy: LLM không thực sự xem video. Nếu ElevenLabs Scribe nhận diện sai từ thì cut có thể bị lệch - cần verify với source material phức tạp.
Cài local: Yêu cầu Python 3.10+, FFmpeg, yt-dlp, và ElevenLabs API key. Không phải SaaS - phải tự setup.
Chi phí API: Bản thân video-use miễn phí (MIT), nhưng mỗi video cần 1 lần gọi ElevenLabs Scribe. Tự quản lý chi phí.
Chưa có official release: Đang active development. Tuy nhiên với 8.700+ sao sau vài tuần, community đang rất sôi động.

Ai nên dùng ngay

video-use phù hợp nhất cho:

Developer và technical user quen dùng Claude Code, Codex, hoặc các coding agent có shell access.
Content creator quay nhiều takes cần cắt filler words và dead space - talking heads, tutorials, podcast video.
Team nhỏ muốn workflow editing auditable: transcript + EDL có thể review trước khi render, không tốn compute vô ích.
Ai muốn automation không cần mở Premiere - đặc biệt khi chạy từ VPS hoặc Telegram bot.

Nếu bạn đã dùng browser-use cho web automation, video-use là same mental model nhưng cho video. via browser-use/video-use

Kết

video-use không phải là video editor - nó là infrastructure layer biến video editing thành một agent workflow có thể audit được. Thay vì timeline và preset, bạn chat. Thay vì 45 triệu tokens frame-by-frame, agent đọc 12KB transcript.

Cùng insight đã làm browser-use thành công: đừng cho AI xem raw pixels, hãy cho nó đọc cấu trúc. Nhưng lần này, cấu trúc đó là audio transcript của video bạn.