NVIDIA Asset Harvester: Biến video lái xe thành 3D asset trong vài giây

TL;DR

NVIDIA vừa release Asset Harvester — pipeline end-to-end image-to-3D chuyên cho autonomous vehicle. Nhập 1–4 ảnh RGB 512×512 của một vật thể trên đường (xe, người đi bộ, biker, chướng ngại vật), output là 3D Gaussian splat hoàn chỉnh trong vài giây, sẵn sàng cắm vào NuRec để dựng lại kịch bản lái xe dạng closed-loop. Paper arXiv:2604.18468 phát hành ~3 ngày trước; code trên GitHub dưới Apache-2.0, weights trên Hugging Face theo NVIDIA Open Model License — sẵn sàng cho cả commercial lẫn non-commercial.

Asset Harvester — front and back views of a pedestrian asset reconstructed from sparse input

Cái gì mới

Trong AV development, reconstruction 3D scene tĩnh (đường, cây, building) đã tương đối giải quyết bằng 3DGS / NeRF. Nhưng dynamic actor — chính chiếc xe đi ngược chiều bạn cần test avoid, hay người đi bộ bất ngờ lao ra — lại là tập dữ liệu cực sparse: mỗi object chỉ có 1–2 góc nhìn từ camera xe của mình, đầy occlusion, calib noise, và viewpoint bias cực lớn.

Asset Harvester giải quyết đúng khoảng trống đó. Thay vì tạo một mô hình monolithic, NVIDIA ghép một hệ 5 model lại: Mask2Former → C-RADIO → SparseViewDiT → Object TokenGS → Fixer. Cái trung tâm — SparseViewDiT — là multiview diffusion model được huấn luyện riêng cho dữ liệu AV sparse, sinh ra 16 góc nhìn mới nhất quán từ vài ảnh input. Object TokenGS sau đó "lift" 16 ảnh đó lên thành 3D Gaussian splat bằng feed-forward — không tối ưu per-scene, nên nhanh vài giây chứ không phải vài phút như pipeline 3DGS cổ điển.

Chi tiết kỹ thuật

Thành phần	Vai trò
Mask2Former	Instance segmentation để cắt object khỏi ảnh NCore
C-RADIO	Image encoder
SparseViewDiT	Multiview diffusion, sinh 16 view mới; có camera pose estimator nội bộ khi thiếu param
Object TokenGS	Feed-forward Gaussian reconstructor, lift 2D → 3DGS
Fixer	Single-step diffusion refine fidelity + generalization

Input: 1–4 ảnh RGB 512×512 + metadata NCore (camera orientation, distance, FOV, bounding-box 3D). Nếu thiếu camera param thì SparseViewDiT tự estimate. Có fallback single-view + foreground mask.

Output: file gaussians.ply (3DGS chuẩn — center, SH DC coeffs, opacity, anisotropic scale, rotation quaternion) + metadata.yaml, repackage vào USDZ để NuRec insert/replace/remove qua gRPC API.

Hardware: Ampere / Lovelace / Hopper / Blackwell, test trên A100 & H100. Chạy được ở ~16 GB VRAM nếu bật --offload_model_to_cpu; spec đầy đủ theo model card là ≥30 GB VRAM, ≥300 TFLOPs, ≥768 GB/s bandwidth, CUDA 12.8, Linux, PyTorch. Metric chính: PSNR (benchmark number "coming soon" trong README).

Tại sao quan trọng

AV 3.0 đang chuyển sang Vision-Language-Action end-to-end model (như NVIDIA Alpamayo): chiếc xe vừa perceive, vừa reason, vừa action như một policy duy nhất. Model như vậy không thể validate bằng data replay — bạn phải cho nó chạy trong simulator, bẻ lái, quyết định, rồi đo collision rate / mean-time-between-incident. Mà muốn closed-loop thật sự thì scene phải có dynamic actor manipulable: chặn một chiếc xe, thêm một pedestrian, đổi một biker.

Asset Harvester là mảnh ghép đúng ngay đó. NuRec dựng scene tĩnh; Asset Harvester cung cấp dynamic actor 3D từ chính log lái xe thực tế. Ghép lại bạn có AlpaSim-style closed-loop: xe ego chạy xuyên scene mới, traffic agents phản ứng, kết quả thay đổi theo hành động model.

So với trước

Neural scene reconstruction cổ điển (3DGS, NeRF variants) tốt cho scene tĩnh nhưng không tạo ra object asset hoàn chỉnh có thể manipulate — chỉ replay được. Image-to-3D single-model (LRM, InstantMesh, LGM…) hoạt động tốt với object photo studio, nhưng gãy khi gặp AV data: 1–2 góc, occlusion nặng, calib ồn.

Điểm khác biệt của Asset Harvester nằm ở thiết kế hệ thống: curation object-centric training tuple ở quy mô lớn, geometry-aware preprocessing cross-sensor, hybrid data augmentation + self-distillation. Và generative "fill-in-the-blank" cho phần object bị che — thứ mà non-generative pipeline không làm được.

Multiview diffusion result for a truck — front and back views generated from sparse input

Use case

Closed-loop AV simulation: nhét xe / người đi bộ real-world vào NuRec scene, chạy ego policy xuyên qua và đo safety metric.
Synthetic Data Generation (SDG): sinh variant của cùng 1 object (góc nhìn, vị trí) để train perception module chống long-tail.
Long-tail scenario authoring: tái dựng kịch bản nguy hiểm (pedestrian lao ngang, xe mất lái) — dữ liệu không thể quay thật ngoài đường. NVIDIA còn cho thấy animate VRU asset bằng Kimodo + SOMA.
Generative augmentation pipeline: kết hợp Cosmos Transfer để đổi weather / time-of-day / environment; Asset Harvester giữ geometric structure và semantic content của actor.

Hạn chế & pricing

Occlusion nặng / out-of-distribution → output có thể bị hallucinate. Không dùng trong safety-critical simulation.
Chỉ train cho AV domain — không bảo đảm ở domain khác (indoor, robotics manipulation, v.v.).
Không được deploy trực tiếp lên xe để thực hiện life-critical task.
Pricing: miễn phí. Code Apache-2.0, weights NVIDIA Open Model License, commercial + non-commercial OK. Bạn tự lo GPU A100/H100 (hoặc dùng offload CPU cho card 16 GB).

Sắp tới

README hiện đang "Coming soon" mục benchmark và reference paper; paper formal với đầy đủ số PSNR / comparison table sẽ xuất hiện trong vài tuần tới. Không có roadmap công bố về mở rộng domain ngoài AV, nhưng kiến trúc SparseViewDiT + Object TokenGS hoàn toàn có thể re-train cho robotics manipulation, drone scene, hay AR asset harvest từ video điện thoại — nếu ai đó có data.

Repo NVIDIA/asset-harvester mới 128 sao ngày hôm qua, chắc chắn sẽ bùng. Setup mất ~20 phút với conda, chạy được với ~16 GB VRAM. Nếu bạn đang làm AV sim, synthetic data, hay chỉ tò mò về generative 3D pipeline quy mô production — đây là thứ đáng mở ngay đầu tuần.

Nguồn: NVIDIA Research, GitHub, Hugging Face, NuRec docs, AWS × NVIDIA AV 3.0 pipeline.