TL;DR

video-use là Claude Code skill open-source 100% (MIT license) cho phép chỉnh sửa video hoàn toàn bằng hội thoại với AI agent. Nhóm browser-use - đã nổi tiếng với công cụ tự động hóa trình duyệt cùng tên - phát hành ngày 19/4/2026. Dự án đã đạt 8.726 sao GitHub và 1.276 forks chỉ trong vài tuần.

Ý tưởng cốt lõi: drop raw footage vào folder, chat với Claude Code (hoặc Codex, Hermes), nhận lại final.mp4. Không timeline, không preset, không menu.

video-use - Edit videos with AI agents

Video editing truyền thống đang lãng phí quá nhiều

Bất kỳ ai làm content đều biết cảm giác này: quay xong 10 take, phải ngồi scrub từng file để tìm câu nói tốt nhất, rồi mới bắt đầu cắt. Nếu dùng AI frame-dumping, bài toán còn tệ hơn - xử lý 30.000 frames nhân 1.500 tokens mỗi frame = 45 triệu tokens nhiễu.

Với video-use, con số đó giảm xuống còn 12KB text.

LLM không xem video - nó đọc video

Đây là điểm đột phá về kiến trúc. video-use dùng mô hình 2 lớp:

  • Layer 1 - Audio transcript (luôn load): Gọi ElevenLabs Scribe 1 lần per source file, nhận về word-level timestamps, speaker diarization, và audio events như (laughter), (applause), (sigh). Toàn bộ takes pack vào file takes_packed.md ~12KB - đây là giao diện đọc chính của LLM.

  • Layer 2 - Visual composite (theo yêu cầu): timeline_view tạo filmstrip + waveform + word labels PNG, chỉ được gọi tại các decision points như ambiguous pauses hay retake comparisons - không phải quét liên tục.

Cùng nguyên lý với browser-use: thay vì cho LLM xem screenshot, bạn cho nó đọc DOM có cấu trúc. Nhưng ở đây là cho video.

Claude Code đang chạy video-use - kiểm tra transcript và đề xuất chiến lược edit

Quick start - 1 lệnh setup

Paste prompt này vào Claude Code:

Set up https://github.com/browser-use/video-use for me.

Read install.md first to install this repo, wire up ffmpeg, register the skill
with whichever agent you're running under, and set up the ElevenLabs API key —
ask me to paste it when you need it.

Agent tự clone repo, cài dependencies, đăng ký skill, rồi hỏi bạn ElevenLabs API key (lấy tại elevenlabs.io/app/settings/api-keys). Sau đó chỉ cần trỏ agent vào folder footage:

cd /path/to/your/videos
claude

Và gõ: edit these into a launch video. Agent kiểm kê sources, đề xuất chiến lược, chờ bạn OK, rồi produce edit/final.mp4.

Muốn chạy always-on từ VPS hoặc Telegram: dùng Browser Use Box.

Tính năng chính

  • Cắt filler words tự động: Phát hiện và xóa umm, uh, false starts, dead space giữa các takes.

  • 30ms audio fade tại mọi cut: Đảm bảo không có audible pop tại ranh giới cắt - hard rule không thể bỏ qua.

  • Auto color grading: Warm cinematic, neutral punch, hoặc bất kỳ FFmpeg chain tùy chỉnh nào.

  • Subtitle và animation overlay: Burn subtitle phong cách tùy chỉnh (mặc định 2-word UPPERCASE chunks); generate animation overlay qua HyperFrames, Remotion, Manim, hoặc PIL - mỗi animation chạy song song trong sub-agent riêng.

  • Self-eval loop: Sau render, timeline_view tự kiểm tra output tại mọi cut boundary để phát hiện visual jump, audio pop, subtitle bị overlay che. Fail thì fix + re-render, tối đa 3 lần trước khi show preview.

  • Session memory: Mọi session lưu vào project.md - tuần sau mở lại vẫn nhớ ngữ cảnh.

Toàn bộ hoạt động theo quy trình: Transcribe → Pack → LLM Reasons → EDL → Render → Self-Eval. Bạn phê duyệt strategy trước khi agent đụng vào cut.

Giới hạn cần biết

  • Phụ thuộc transcript accuracy: LLM không thực sự xem video. Nếu ElevenLabs Scribe nhận diện sai từ thì cut có thể bị lệch - cần verify với source material phức tạp.

  • Cài local: Yêu cầu Python 3.10+, FFmpeg, yt-dlp, và ElevenLabs API key. Không phải SaaS - phải tự setup.

  • Chi phí API: Bản thân video-use miễn phí (MIT), nhưng mỗi video cần 1 lần gọi ElevenLabs Scribe. Tự quản lý chi phí.

  • Chưa có official release: Đang active development. Tuy nhiên với 8.700+ sao sau vài tuần, community đang rất sôi động.

Ai nên dùng ngay

video-use phù hợp nhất cho:

  • Developer và technical user quen dùng Claude Code, Codex, hoặc các coding agent có shell access.

  • Content creator quay nhiều takes cần cắt filler words và dead space - talking heads, tutorials, podcast video.

  • Team nhỏ muốn workflow editing auditable: transcript + EDL có thể review trước khi render, không tốn compute vô ích.

  • Ai muốn automation không cần mở Premiere - đặc biệt khi chạy từ VPS hoặc Telegram bot.

Nếu bạn đã dùng browser-use cho web automation, video-use là same mental model nhưng cho video. via browser-use/video-use

Kết

video-use không phải là video editor - nó là infrastructure layer biến video editing thành một agent workflow có thể audit được. Thay vì timeline và preset, bạn chat. Thay vì 45 triệu tokens frame-by-frame, agent đọc 12KB transcript.

Cùng insight đã làm browser-use thành công: đừng cho AI xem raw pixels, hãy cho nó đọc cấu trúc. Nhưng lần này, cấu trúc đó là audio transcript của video bạn.