- video-use là Claude Code skill mã nguồn mở (MIT) do nhóm browser-use phát hành ngày 19/4/2026, đạt 8.700 sao GitHub.
- Thay vì xem video, LLM đọc transcript 12KB so với 45 triệu token nếu dùng cách thông thường.
- Drop raw footage vào folder, chat với coding agent, nhận lại final.mp4 - không có presets, không có menu.
TL;DR
video-use là Claude Code skill open-source 100% (MIT license) cho phép chỉnh sửa video hoàn toàn bằng hội thoại với AI agent. Nhóm browser-use - đã nổi tiếng với công cụ tự động hóa trình duyệt cùng tên - phát hành ngày 19/4/2026. Dự án đã đạt 8.726 sao GitHub và 1.276 forks chỉ trong vài tuần.
Ý tưởng cốt lõi: drop raw footage vào folder, chat với Claude Code (hoặc Codex, Hermes), nhận lại final.mp4. Không timeline, không preset, không menu.

Video editing truyền thống đang lãng phí quá nhiều
Bất kỳ ai làm content đều biết cảm giác này: quay xong 10 take, phải ngồi scrub từng file để tìm câu nói tốt nhất, rồi mới bắt đầu cắt. Nếu dùng AI frame-dumping, bài toán còn tệ hơn - xử lý 30.000 frames nhân 1.500 tokens mỗi frame = 45 triệu tokens nhiễu.
Với video-use, con số đó giảm xuống còn 12KB text.
LLM không xem video - nó đọc video
Đây là điểm đột phá về kiến trúc. video-use dùng mô hình 2 lớp:
Layer 1 - Audio transcript (luôn load): Gọi ElevenLabs Scribe 1 lần per source file, nhận về word-level timestamps, speaker diarization, và audio events như
(laughter),(applause),(sigh). Toàn bộ takes pack vào filetakes_packed.md~12KB - đây là giao diện đọc chính của LLM.Layer 2 - Visual composite (theo yêu cầu):
timeline_viewtạo filmstrip + waveform + word labels PNG, chỉ được gọi tại các decision points như ambiguous pauses hay retake comparisons - không phải quét liên tục.
Cùng nguyên lý với browser-use: thay vì cho LLM xem screenshot, bạn cho nó đọc DOM có cấu trúc. Nhưng ở đây là cho video.

Quick start - 1 lệnh setup
Paste prompt này vào Claude Code:
Set up https://github.com/browser-use/video-use for me.
Read install.md first to install this repo, wire up ffmpeg, register the skill
with whichever agent you're running under, and set up the ElevenLabs API key —
ask me to paste it when you need it.Agent tự clone repo, cài dependencies, đăng ký skill, rồi hỏi bạn ElevenLabs API key (lấy tại elevenlabs.io/app/settings/api-keys). Sau đó chỉ cần trỏ agent vào folder footage:
cd /path/to/your/videos
claudeVà gõ: edit these into a launch video. Agent kiểm kê sources, đề xuất chiến lược, chờ bạn OK, rồi produce edit/final.mp4.
Muốn chạy always-on từ VPS hoặc Telegram: dùng Browser Use Box.
Tính năng chính
Cắt filler words tự động: Phát hiện và xóa
umm,uh, false starts, dead space giữa các takes.30ms audio fade tại mọi cut: Đảm bảo không có audible pop tại ranh giới cắt - hard rule không thể bỏ qua.
Auto color grading: Warm cinematic, neutral punch, hoặc bất kỳ FFmpeg chain tùy chỉnh nào.
Subtitle và animation overlay: Burn subtitle phong cách tùy chỉnh (mặc định 2-word UPPERCASE chunks); generate animation overlay qua HyperFrames, Remotion, Manim, hoặc PIL - mỗi animation chạy song song trong sub-agent riêng.
Self-eval loop: Sau render,
timeline_viewtự kiểm tra output tại mọi cut boundary để phát hiện visual jump, audio pop, subtitle bị overlay che. Fail thì fix + re-render, tối đa 3 lần trước khi show preview.Session memory: Mọi session lưu vào
project.md- tuần sau mở lại vẫn nhớ ngữ cảnh.
Toàn bộ hoạt động theo quy trình: Transcribe → Pack → LLM Reasons → EDL → Render → Self-Eval. Bạn phê duyệt strategy trước khi agent đụng vào cut.
Giới hạn cần biết
Phụ thuộc transcript accuracy: LLM không thực sự xem video. Nếu ElevenLabs Scribe nhận diện sai từ thì cut có thể bị lệch - cần verify với source material phức tạp.
Cài local: Yêu cầu Python 3.10+, FFmpeg, yt-dlp, và ElevenLabs API key. Không phải SaaS - phải tự setup.
Chi phí API: Bản thân video-use miễn phí (MIT), nhưng mỗi video cần 1 lần gọi ElevenLabs Scribe. Tự quản lý chi phí.
Chưa có official release: Đang active development. Tuy nhiên với 8.700+ sao sau vài tuần, community đang rất sôi động.
Ai nên dùng ngay
video-use phù hợp nhất cho:
Developer và technical user quen dùng Claude Code, Codex, hoặc các coding agent có shell access.
Content creator quay nhiều takes cần cắt filler words và dead space - talking heads, tutorials, podcast video.
Team nhỏ muốn workflow editing auditable: transcript + EDL có thể review trước khi render, không tốn compute vô ích.
Ai muốn automation không cần mở Premiere - đặc biệt khi chạy từ VPS hoặc Telegram bot.
Nếu bạn đã dùng browser-use cho web automation, video-use là same mental model nhưng cho video. via browser-use/video-use
Kết
video-use không phải là video editor - nó là infrastructure layer biến video editing thành một agent workflow có thể audit được. Thay vì timeline và preset, bạn chat. Thay vì 45 triệu tokens frame-by-frame, agent đọc 12KB transcript.
Cùng insight đã làm browser-use thành công: đừng cho AI xem raw pixels, hãy cho nó đọc cấu trúc. Nhưng lần này, cấu trúc đó là audio transcript của video bạn.
