LingBot-Map: Ant Group mở mã mô hình dựng 3D streaming ~20 FPS chỉ từ 1 camera

← quay lại timelineArticle thread

LingBot-Map: Ant Group mở mã mô hình dựng 3D streaming ~20 FPS chỉ từ 1 camera

D. Chu

@donniechublog·20 Apr

20 Apr 2026·7 phút đọc

Highlights

Robbyant (Ant Group) mở mã LingBot-Map — mô hình dựng 3D streaming end-to-end chạy ~20 FPS trên chuỗi hơn 10.000 frame, chỉ cần 1 camera RGB.
Vượt cả phương pháp offline trên Oxford Spires và ETH3D.

TL;DR

LingBot-Map là mô hình dựng 3D streaming do Robbyant — đơn vị embodied AI của Ant Group — mở mã ngày 16/04/2026. Nó nhận 1 video RGB và xuất ra pose camera + cấu trúc 3D theo từng frame, end-to-end, ~20 FPS, ổn định trên chuỗi hơn 10.000 frame. Không lidar, không pipeline nhiều tầng, không cleanup. Vượt cả phương pháp offline trên Oxford Spires và ETH3D, phát hành Apache 2.0 trên GitHub và Hugging Face.

LingBot-Map dựng 3D multi-room và outdoor driving từ 1 camera RGB

Có gì mới

Đa số pipeline 3D reconstruction hiện có đi theo 1 trong 2 hướng: (1) SLAM cổ điển nhiều tầng — feature matching, bundle adjustment, loop closure, hậu xử lý; hoặc (2) mô hình offline như COLMAP, VIPE, DA3 — chất lượng tốt nhưng cần batch toàn bộ video rồi mới tính.

LingBot-Map đi hướng thứ ba: auto-regressive thuần, dựng lại scene ngay khi camera di chuyển, không cần xem toàn bộ video trước. Cốt lõi là Geometric Context Transformer với cơ chế Geometric Context Attention (GCA) — gom anchor context, pose-reference window và trajectory memory vào một khối attention duy nhất. Thiết kế phân tầng lấy cảm hứng từ SLAM cổ điển nhưng hoàn toàn học được (learned), không còn module tay viết.

Vì sao đáng chú ý

Ba điểm: một, perception cho robot và xe tự hành đang trở thành software-first — không cần cảm biến chuyên dụng đắt tiền, 1 camera RGB là đủ. Hai, đây là mô hình streaming đánh bại cả baseline offline — nghĩa là giới hạn "real-time phải đánh đổi chất lượng" không còn chắc. Ba, giấy phép Apache 2.0 + code + weights — doanh nghiệp và nhà nghiên cứu dùng thương mại không rào cản.

Số liệu kỹ thuật

Thuộc tính	Giá trị
Tốc độ suy luận	~20 FPS ở 518×378
Độ dài chuỗi ổn định	> 10.000 frame
Input	1 camera RGB, không cần depth / IMU / lidar
Kiến trúc	Auto-regressive + Geometric Context Transformer (GCA)
Checkpoint	lingbot-map, lingbot-map-long, lingbot-map-stage1
Stack	Python 3.10, PyTorch 2.9.1, CUDA 12.8, FlashInfer (tuỳ chọn)
Viewer	viser, mở trên localhost:8080

Paged KV-cache attention là thứ giữ cho inference ổn định ở chuỗi cực dài — thay vì attention scale tuyến tính theo frame đã xem, cache được chia trang và chỉ giữ vùng hình học cần thiết. Cờ --offload_to_cpu bật sẵn, cộng thêm --num_scale_frames 2 giúp chạy được trên GPU VRAM hạn chế.

So sánh benchmark

Benchmark	Metric	LingBot-Map	Best khác
Oxford Spires	ATE (m) ↓	6.42	~2.8× kém hơn (streaming trước đó)
ETH3D	F1 ↑	98.98	−21+ điểm
DA3 (offline)	ATE (m) ↓	thắng	12.87
VIPE (offline)	ATE (m) ↓	thắng	10.52

Ngoài ra dẫn đầu trên 7-Scenes và Tanks-and-Temples. Chú ý khoảng cách trên ETH3D — hơn 21 điểm F1 là bước nhảy chứ không phải cải thiện tiệm cận. So với họ SLAM monocular gần đây như SLAM3R (CVPR'25, ~20 FPS dense recon), LingBot-Map vượt cả về độ chính xác lẫn ổn định chuỗi dài.

Ứng dụng

Robotics: điều hướng, tránh vật, thao tác đồ vật — perception chạy thẳng trên camera robot, không lidar.
Xe tự hành: spatial understanding từ RGB, giảm phụ thuộc lidar đắt tiền.
AR/VR: dựng scene live trên thiết bị để đặt vật thể, occlusion, passthrough.
Drone / khảo sát: quét chuỗi > 10k frame không tích lỹ drift.
Nền tảng nghiên cứu: foundation model cắm vào stack embodied-AI rộng hơn (LingBot-Depth, LingBot-VLA, LingBot-World, LingBot-VA cùng họ).

Hạn chế & phát hành

Giấy phép: Apache 2.0, miễn phí, cho phép thương mại.
Độ phân giải tối ưu công bố: 518×378 — chưa có benchmark real-time ở resolution cao hơn.
Yêu cầu GPU CUDA; VRAM tối thiểu chưa công bố — cờ CPU offload cho thấy chạy được trên single consumer GPU.
Hiện là mô hình monocular; chưa có mode stereo / multi-cam chính thức.
Tài liệu PR nhấn mạnh scene tĩnh / bán tĩnh — chưa claim xử lý tốt scene có nhiều vật động.

Robbyant định vị LingBot-Map là một mảnh trong họ LingBot (Map / Depth / VLA / World / VA). Hướng phát triển có thể đoán được: biến thể độ phân giải cao hơn, mở rộng stereo / multi-cam, và tích hợp chặt với LingBot-VLA để khép kín vòng perception → action cho robot. Với Apache 2.0 + code + weights, cộng đồng cũng có thể fine-tune cho domain riêng (construction site, khảo sát mỏ, indoor mapping công nghiệp) ngay bây giờ.

Nguồn: GitHub robbyant/lingbot-map, Hugging Face, arXiv 2604.14141, Business Upturn.

LingBot-Map: Ant Group mở mã mô hình dựng 3D streaming ~20 FPS chỉ từ 1 camera

TL;DR

Có gì mới

Vì sao đáng chú ý

Số liệu kỹ thuật

So sánh benchmark

Ứng dụng

Hạn chế & phát hành

Tiếp theo

Tiếp tục lướt

Sherlock: công cụ OSINT mã nguồn mở quét username trên 400+ mạng xã hội trong vài giây

SideImpactor: ký và cài app iOS ngay trong trình duyệt qua WebUSB, không cần Sideloadly

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

qa-use: AI agents tự test E2E web app — viết test bằng tiếng Anh, chạy bằng Claude/GPT/Gemini

Faraday: nền tảng quản lý lỗ hổng mã nguồn mở dành cho red team