Tag: #computer-vision

2 bài viết

7812026-06-16

GenRecon: Dựng cảnh 3D từ 8 tấm ảnh, mạnh hơn baseline 16%

GenRecon ghép Trellis.2 với projection-based 3D conditioning để dựng cảnh nội thất từ vài view RGB. Trên ScanNet++ thật, F-score@10cm đạt 0.777 và Chamfer 0.069m, vượt FineRecon và Murre. Trên 3D-FRONT, F-score gấp 1.4 lần baseline tốt nhất với chỉ 8 ảnh đầu vào. Output là PBR mesh edit được, nhập thẳng engine không cần per-scene optimization.

3d-reconstructiongenerative-aicomputer-vision

7 phút đọc

#5162026-05-07

VLMaxxing: Dạy Video VLM Bỏ Qua Những Gì Không Thay Đổi - Không Cần Training

VLMaxxing (arXiv 2605.03351) dạy video VLM tái sử dụng trạng thái visual thay vì xử lý lại mọi frame giống hệt nhau. Kỹ thuật training-free đạt 14.90-35.92x tăng tốc cho follow-up query trên Qwen2.5-VL-7B, không drift độ chính xác qua 93 câu hỏi. C-VISION pruning trên Gemma 4-E4B đạt 54 fps, giảm 42.2% thời gian xử lý vision tower. Mã nguồn mở tại github.com/jfbastien/VLMaxxing.

video-vlmai-researchcomputer-vision

6 phút đọc