TL;DR

LingBot-Map là mô hình dựng 3D streaming do Robbyant — đơn vị embodied AI của Ant Group — mở mã ngày 16/04/2026. Nó nhận 1 video RGB và xuất ra pose camera + cấu trúc 3D theo từng frame, end-to-end, ~20 FPS, ổn định trên chuỗi hơn 10.000 frame. Không lidar, không pipeline nhiều tầng, không cleanup. Vượt cả phương pháp offline trên Oxford Spires và ETH3D, phát hành Apache 2.0 trên GitHub và Hugging Face.

LingBot-Map dựng 3D multi-room và outdoor driving từ 1 camera RGB

Có gì mới

Đa số pipeline 3D reconstruction hiện có đi theo 1 trong 2 hướng: (1) SLAM cổ điển nhiều tầng — feature matching, bundle adjustment, loop closure, hậu xử lý; hoặc (2) mô hình offline như COLMAP, VIPE, DA3 — chất lượng tốt nhưng cần batch toàn bộ video rồi mới tính.

LingBot-Map đi hướng thứ ba: auto-regressive thuần, dựng lại scene ngay khi camera di chuyển, không cần xem toàn bộ video trước. Cốt lõi là Geometric Context Transformer với cơ chế Geometric Context Attention (GCA) — gom anchor context, pose-reference window và trajectory memory vào một khối attention duy nhất. Thiết kế phân tầng lấy cảm hứng từ SLAM cổ điển nhưng hoàn toàn học được (learned), không còn module tay viết.

Vì sao đáng chú ý

Ba điểm: một, perception cho robot và xe tự hành đang trở thành software-first — không cần cảm biến chuyên dụng đắt tiền, 1 camera RGB là đủ. Hai, đây là mô hình streaming đánh bại cả baseline offline — nghĩa là giới hạn "real-time phải đánh đổi chất lượng" không còn chắc. Ba, giấy phép Apache 2.0 + code + weights — doanh nghiệp và nhà nghiên cứu dùng thương mại không rào cản.

Số liệu kỹ thuật

Thuộc tínhGiá trị
Tốc độ suy luận~20 FPS ở 518×378
Độ dài chuỗi ổn định> 10.000 frame
Input1 camera RGB, không cần depth / IMU / lidar
Kiến trúcAuto-regressive + Geometric Context Transformer (GCA)
Checkpointlingbot-map, lingbot-map-long, lingbot-map-stage1
StackPython 3.10, PyTorch 2.9.1, CUDA 12.8, FlashInfer (tuỳ chọn)
Viewerviser, mở trên localhost:8080

Paged KV-cache attention là thứ giữ cho inference ổn định ở chuỗi cực dài — thay vì attention scale tuyến tính theo frame đã xem, cache được chia trang và chỉ giữ vùng hình học cần thiết. Cờ --offload_to_cpu bật sẵn, cộng thêm --num_scale_frames 2 giúp chạy được trên GPU VRAM hạn chế.

So sánh benchmark

BenchmarkMetricLingBot-MapBest khác
Oxford SpiresATE (m) ↓6.42~2.8× kém hơn (streaming trước đó)
ETH3DF1 ↑98.98−21+ điểm
DA3 (offline)ATE (m) ↓thắng12.87
VIPE (offline)ATE (m) ↓thắng10.52

Ngoài ra dẫn đầu trên 7-Scenes và Tanks-and-Temples. Chú ý khoảng cách trên ETH3D — hơn 21 điểm F1 là bước nhảy chứ không phải cải thiện tiệm cận. So với họ SLAM monocular gần đây như SLAM3R (CVPR'25, ~20 FPS dense recon), LingBot-Map vượt cả về độ chính xác lẫn ổn định chuỗi dài.

Ứng dụng

  • Robotics: điều hướng, tránh vật, thao tác đồ vật — perception chạy thẳng trên camera robot, không lidar.
  • Xe tự hành: spatial understanding từ RGB, giảm phụ thuộc lidar đắt tiền.
  • AR/VR: dựng scene live trên thiết bị để đặt vật thể, occlusion, passthrough.
  • Drone / khảo sát: quét chuỗi > 10k frame không tích lỹ drift.
  • Nền tảng nghiên cứu: foundation model cắm vào stack embodied-AI rộng hơn (LingBot-Depth, LingBot-VLA, LingBot-World, LingBot-VA cùng họ).

Hạn chế & phát hành

  • Giấy phép: Apache 2.0, miễn phí, cho phép thương mại.
  • Độ phân giải tối ưu công bố: 518×378 — chưa có benchmark real-time ở resolution cao hơn.
  • Yêu cầu GPU CUDA; VRAM tối thiểu chưa công bố — cờ CPU offload cho thấy chạy được trên single consumer GPU.
  • Hiện là mô hình monocular; chưa có mode stereo / multi-cam chính thức.
  • Tài liệu PR nhấn mạnh scene tĩnh / bán tĩnh — chưa claim xử lý tốt scene có nhiều vật động.

Tiếp theo

Robbyant định vị LingBot-Map là một mảnh trong họ LingBot (Map / Depth / VLA / World / VA). Hướng phát triển có thể đoán được: biến thể độ phân giải cao hơn, mở rộng stereo / multi-cam, và tích hợp chặt với LingBot-VLA để khép kín vòng perception → action cho robot. Với Apache 2.0 + code + weights, cộng đồng cũng có thể fine-tune cho domain riêng (construction site, khảo sát mỏ, indoor mapping công nghiệp) ngay bây giờ.

Nguồn: GitHub robbyant/lingbot-map, Hugging Face, arXiv 2604.14141, Business Upturn.