TL;DR

Kỹ sư Ben vừa chia sẻ hệ thống SLAM 3D real-time hoàn toàn mới - viết từng dòng từ đầu bằng Rust, không dùng bất kỳ framework hay thư viện SLAM nào. Hệ thống fuse LiDAR và IMU để tạo ra bản đồ 3D mesh chất lượng cao mà robot có thể dùng ngay để lập kế hoạch đường đi, chạy ở tần số IMU. Đang thu thập dữ liệu tại công trường xây dựng và kho hàng, hướng đến triển khai Physical AI agents tự động hóa mọi tác vụ liên quan đến dữ liệu 3D.

Developer Ben với thiết bị LiDAR scanner - hệ thống SLAM Rust real-time

Không mua stack - xây từ đầu

Điều đầu tiên cần hiểu rõ: đây không phải là wrap một thư viện SLAM có sẵn. Ben viết lại từng dòng code - từ driver cảm biến, pipeline ước lượng trạng thái, đến tầng fusion tổng hợp mọi thứ lại với nhau.

Rust được chọn vì những lý do rõ ràng: memory safety không cần garbage collector, performance sát C++, và khả năng kiểm soát low-level cần thiết cho real-time embedded systems. Khi bạn đang fuse IMU ở 200-500 Hz với LiDAR ở 10-20 Hz, không có chỗ cho latency spike hay memory leak.

Phần phức tạp nhất không phải là thuật toán - mà là covariance. Ben gọi đây là "covariance nightmare": hệ thống phải biết chính xác mình không chắc chắn bao nhiêu về vị trí và hướng của mình ở từng thời điểm. Hiện tại hệ thống dùng Fisher Information từ các phép đo thực tế để ước tính - một lựa chọn kỹ thuật có thể tiếp tục được cải thiện theo thời gian.

Không phải SfM, không phải Gaussian Splatting

Khi bạn xem video demo, bạn thấy một "chuyến bay qua thế giới 3D" - những điểm point cloud dày đặc tạo thành mesh nhận ra cấu trúc tòa nhà, đường phố, người đang di chuyển. Điều quan trọng cần hiểu là hệ thống này không thuộc bất kỳ danh mục nào phổ biến hiện nay.

  • Structure from Motion (SfM): xây mô hình 3D từ nhiều ảnh tĩnh theo kiểu offline, cần batch processing. Không chạy real-time.

  • 3D Gaussian Splatting (3DGS): render đẹp nhưng cần pose ban đầu từ SfM/SLAM, không chạy real-time cho mapping, độ chính xác hình học thấp.

  • Hệ thống này: bản đồ 3D tight-mesh xây dựng trực tiếp từ dữ liệu cảm biến trong thời gian thực.

"Chuyến bay" trong video chính là state estimate của scanner được publish ở tần số IMU - nghĩa là hệ thống biết mình đang ở đâu, theo hướng nào, với độ trễ dưới mili-giây. SfM và Gaussian Splatting cho kết quả đẹp hơn về thẩm mỹ, nhưng robot cần bản đồ chính xác về hình học để lập kế hoạch đường đi - không phải ảnh đẹp. Mesh này có thể dùng trực tiếp với bất kỳ open-source path planner nào.

Bộ máy kỹ thuật đằng sau

Pipeline cơ bản của LiDAR-IMU fusion hoạt động theo chuỗi bước liên kết chặt chẽ:

  • IMU preintegration: tích phân accelerometer và gyroscope giữa các frame LiDAR để có ước tính pose ban đầu trước khi scan tới

  • Point cloud deskewing: dùng IMU data để sửa motion blur - khi scanner di chuyển, các điểm LiDAR bị "kéo lệch" do thời gian quét

  • Scan-to-map matching: align point cloud mới với bản đồ tích lũy bằng ICP hoặc least-squares optimization

  • Covariance estimation: Fisher Information từ phép đo thực tế - hệ thống tự biết mình đang tự tin bao nhiêu về từng phần bản đồ

  • Dynamic object filtering: lọc người và xe di động khỏi bản đồ, tuân thủ GDPR - đây vẫn là open research problem trong SLAM

Hệ thống LiDAR SLAM hàng đầu như LIO-SAM chạy nhanh hơn real-time tới 10 lần trên phần cứng thông thường với VLP-16 LiDAR kết hợp IMU 9 trục ở 500 Hz. Độ chính xác vị trí đạt 3 cm trong môi trường GPS-denied quy mô lớn. Thách thức lớn nhất không phải thuật toán - mà là làm tất cả chạy đồng thời, ổn định, ở tần số cao mà không có latency spike.

Trong thực tế: công trường và kho hàng

Hiện tại hệ thống đang hoạt động dưới dạng handheld - người dùng cầm thiết bị LiDAR và di chuyển qua không gian cần lập bản đồ. Trong thời gian tới, thiết bị sẽ được gắn lên robot tự hành.

Hai use case đang triển khai thực tế:

  • Công trường xây dựng: lập bản đồ 3D theo tiến độ, so sánh as-built với as-planned, phát hiện sai lệch so với bản vẽ BIM. Robot hoạt động trong môi trường GPS-denied, bụi bặm, thay đổi liên tục - nơi camera thuần thường thất bại.

  • Kho hàng: AMR cần bản đồ 3D chính xác để lập kế hoạch đường đi, phân biệt kệ hàng cố định với người và xe di chuyển tạm thời. LiDAR hoạt động tốt trong bóng tối và môi trường ít kết cấu thị giác.

Thị trường đang tăng trưởng mạnh: global SLAM technology market dự kiến đạt $28.5 tỷ vào 2033 (từ ~$977 triệu năm 2024, CAGR 44.3%). Physical AI robot logistics: $6.8 tỷ năm 2025, dự kiến $38.4 tỷ vào 2034.

Từ dữ liệu đến Physical AI

Bản đồ 3D chỉ là bước đầu. Mục tiêu thực sự là dùng dữ liệu thu thập được để xây dựng và triển khai Physical AI agents - các agent có thể hiểu không gian 3D này và tự động hóa bất kỳ tác vụ nào liên quan đến dữ liệu 3D của khách hàng.

Roadmap cụ thể: thu thập dữ liệu từ khách hàng tại công trường và kho hàng - trước mắt bằng handheld, sau đó với robot. Dữ liệu đó sẽ được dùng để huấn luyện physical agents có thể "lý luận" trong không gian 3D này và hành động tự chủ.

Còn trên roadmap hiện tại: cải thiện calibration, giảm artefact từ dynamic object filtering, và mở rộng thu thập dữ liệu khách hàng. SfM và Gaussian Splatting có thể dùng để offline refinement nhưng không phải ưu tiên.

Nguồn

Via: @ben_sdl Nghiên cứu kỹ thuật từ LiDAR-based SLAM survey (arXiv 2311.00276), LiDAR/IMU/Camera Fusion Systematic Review (Springer 2025), và SLAM2REF - Construction Robotics (Springer).