VLMaxxing: Dạy Video VLM Bỏ Qua Những Gì Không Thay Đổi - Không Cần Training

TL;DR

VLMaxxing through FrameMogging - paper title slide

Video VLM đang lãng phí compute bằng cách xử lý lại những frame giống y chang frame trước - bức tường nhà máy không di chuyển nhưng pipeline vẫn cần encode lại toàn bộ. VLMaxxing (arXiv 2605.03351) giải quyết đúng vấn đề đó: training-free, không thay đổi weights, tăng tốc 14.90-35.92x cho follow-up query mà không làm lệch bất kỳ câu trả lời nào trong 93 query thử nghiệm.

Video VLM Đang Trả Tiền Cho Thứ Mà Stream Đã Nói Là Không Đổi

Hãy tưởng tượng một robot trong nhà máy. Camera ghi lại mọi thứ. Mỗi giây, pipeline VLM nhận một stack frame RGB dày đặc - nền nhà máy, dây chuyền lắp ráp, ánh đèn trên trần - và encode lại từ đầu. Dù bức tường đằng sau không thay đổi từ giây trước.

Đây là lãng phí mang tính hệ thống. Các codec video truyền thống đã giải quyết vấn đề này hàng thập kỷ qua bằng motion vector và residual encoding. Nhưng VLM pipeline vẫn yêu cầu dense RGB frame mỗi vòng lặp.

VLMaxxing through FrameMogging - paper của JF Bastien và Sam D'Amico (Impulse Labs) - đặt câu hỏi đơn giản: một frozen VLM có thể bỏ qua bao nhiêu recomputation mà không ảnh hưởng đến độ chính xác? Và câu trả lời hóa ra khá ấn tượng.

Ba Cơ Chế, Ba Bài Toán Khác Nhau

VLMaxxing tách bạch ba regime tối ưu hóa riêng biệt:

C-PERSIST (After-ingest reuse): Sau khi video đã được ingest lần đầu, các câu hỏi tiếp theo về cùng video đó tái sử dụng KV cache thay vì xử lý lại toàn bộ. Điểm kỹ thuật quan trọng: unrepaired cache dễ rơi vào "cache basin" - trạng thái model bắt đầu trả lời lệch hoặc xuất ra ký tự lạ (kể cả ký tự Chinese auto-generated). C-PERSIST dùng selective re-prefill - làm mới một đuôi nhỏ các frame mới nhất - để thoát khỏi basin đó trước mỗi follow-up query.
C-VISION (First-pass pruning): Bỏ qua một phần vision tower work ngay từ query đầu tiên trên video mới. Không phải replay dense feature - mà skip luôn timed vision-tower work.
C-CEILING (Stage-share arithmetic): Không phải software feature mà là nguyên tắc kế toán: một speedup cục bộ chỉ chuyển thành speedup end-to-end tỷ lệ với wall-clock share của stage đó. Nói cách khác: headline numbers không nhân với nhau được.

Những Con Số Đáng Chú Ý

Regime	Model	Speedup	Accuracy drift
C-PERSIST (follow-up)	Qwen2.5-VL-7B-4bit	14.90-35.92x	0/93 queries
C-VISION (first-pass)	Gemma 4-E4B-4bit	1.316x	0/20 items, 0 parse fail
54 fps throughput	Gemma 4 26B (32f)	after-warm prefix	-
50-turn stress	Qwen adaptive	0.771s median latency	0/343 drift
Stacked (n=60)	Combined	1.042x	matches C-CEILING pred.

Con số đáng chú ý nhất: 14.90-35.92x tăng tốc cho follow-up với zero observed drift trên 93 query. Stress test 50 turns qua 7 video cũng cho 0/343 drift. Đây không phải benchmark số liệu mềm - paper dùng paired drift metric (mỗi câu trả lời phải chọn đúng option như baseline, không chỉ đúng aggregate accuracy).

C-VISION trên Gemma 4-E4B đạt 42.2% giảm vision-time và 1.316x end-to-end trên 32f short - clean operating point với 0 parse failures. Qwen ở cùng task cho thấy ranh giới: giảm quá mạnh (8f keep-rate) thì fidelity sụp.

Ai Nên Để Ý Ngay

VLMaxxing mang lại lợi ích rõ nhất cho các hệ thống có slowly-changing state và follow-up query pattern:

Computer use / desktop agent: Screen/UI thay đổi từng phần - chỉ glyph, cursor, scroll. Exact-copy region reuse là mục tiêu tối ưu nhất.
Surveillance & factory monitoring: Nền tĩnh, chỉ phát hiện sự kiện bất thường. Persistent visual memory + bounded-staleness refresh.
Robotics / VLA: Workspace tĩnh nhưng gripper và object contact zone phải luôn fresh. Paper đề xuất "protected reuse" - refresh mandatory zone, reuse aggressive background - với p95/p99 latency budget.
Multi-turn video QA pipeline: Bất kỳ hệ thống nào hỏi nhiều câu về cùng video clip đều được lợi ngay từ C-PERSIST.

Ranh Giới Cần Biết

Paper cực kỳ thành thật về giới hạn - điều này đáng được ghi nhận:

C-PERSIST chỉ là after-ingest: query đầu tiên vẫn trả giá đầy đủ.
Gains không cộng dồn: C-VISION + C-PERSIST stacked = 1.042x, không phải 35.92x × 1.316x.
Streaming (C-STREAM) chưa proven: low-FPS dense baseline vẫn thắng event-window proxy trên 17/22 UI events.
Architecture-sensitive: Gemma adaptive reuse bị block bởi rotating-cache semantics trên tested MLX stack.
Chưa test robustness với flicker, rolling shutter, blinking UI - các stressor này có thể trigger "fake novelty" và force thêm compute không cần thiết.

Bước Tiếp Theo: Video Cho Máy Tính

VLMaxxing tự gọi mình là "first rung" - bước đầu tiên hướng đến một vision lớn hơn: video-as-world-state-updates. Thay vì stream dense RGB frame, media pipeline tương lai cho machine nên expose trực tiếp: change, motion, uncertainty, object tracks, text events, sensor time, active tiles. Model chỉ render dense visual evidence khi state update yêu cầu.

Roadmap gần hạn: convert semantic substitution routing thành measured sparse backend; test xem compute tiết kiệm được có thể mua longer temporal coverage thay vì chỉ giảm latency; phát triển drift predictor row-level.

Dài hạn: sensor fusion (depth/ToF, IMU, event camera làm freshness oracle), learned recache gates, delta encoder native, và mở rộng sang generative video/audio anti-recomputation.

Code và artifact tại github.com/jfbastien/VLMaxxing. Paper: arXiv:2605.03351 (CC BY 4.0).