TL;DR

GenRobot vừa ra mắt DAS Ego — một wearable gắn đầu tích hợp 6 camera global shutter, FOV >270° ngang / >150° dọc, đồng bộ chuyển động đầu–tay dưới 1ms và dựng lại quỹ đạo ở mức sub-centimet. Đi kèm là bộ dữ liệu mở "Gen Ego Data" (tên kỹ thuật: 10Kh RealOmni-Open Dataset) đăng trên Hugging Face với hơn 1 triệu clip. Đây là một mảnh ghép ít ồn ào nhưng đáng chú ý cho những ai đang huấn luyện VLA model và robot hình người.

GenRobot DAS Ego wearable 6 camera gan dau

Có gì mới

Thay vì tiếp tục đua số tham số mô hình, GenRobot chọn đánh vào khâu thu dữ liệu — nút thắt cổ chai thực sự của embodied AI. DAS Ego là một chiếc headset 350g, pin 3.5 giờ, gắn 6 camera cảm biến 1600×1300 @ 30Hz quanh trán, bổ sung IMU 6 trục 200Hz và micro. Tất cả stream (RGB, IMU, quỹ đạo, audio) chia sẻ cùng một đồng hồ pha cứng, nén dữ liệu xuống còn ~2% để đẩy lên cloud theo phút.

Vì sao đáng quan tâm

Mô hình embodied không học chỉ từ pixel. Chúng học từ cấu trúc đồng bộ: vị trí đầu, chuyển động tay, bố cục không gian và thời điểm hành động — tất cả phải nằm trên cùng một đồng hồ. Rig monocular truyền thống (GoPro, smart glasses một ống kính) rơi rụng ở đúng hai chỗ: (1) che khuất khi cẳng tay chắn bàn tay, và (2) lệch pha đầu–tay ở mức frame (~33ms với 30fps), đủ để mô hình học sai quan hệ nhân–quả giữa nhìn và làm.

DAS Ego giải quyết cả hai: 6 góc nhìn bao phủ >270° ngang loại bỏ vùng mù, còn đồng bộ <1ms giữa head pose và hand motion đảm bảo causality "perception–action–outcome" còn nguyên khi vào training.

Thông số kỹ thuật

Hạng mụcDAS Ego
Số camera6 × global shutter
Độ phân giải / tốc độ1600×1300 @ 30Hz
FOV>270° ngang, >150° dọc
Độ chính xác quỹ đạoSub-centimet
Độ trễ đồng bộ đầu–tay<1ms
IMU6 trục @ 200Hz
Trọng lượng350g
Pin3.5 giờ
Lưu trữ / Kết nối128GB SD · Wi-Fi / BT / USB-C
Nén dữ liệuCòn ~2% dung lượng gốc

So với rig egocentric truyền thống

Tiêu chíRig monocular (GoPro / Aria Gen 1)DAS Ego
Số camera1–26
FOV ngang~120°>270°
Đồng bộ đầu–tayMức frame (~33ms)<1ms
Che khuất tayThường xuyênGiảm nhờ multi-view
Luồng dữ liệuRGB + IMURGB + IMU + quỹ đạo + audio
Quỹ đạoĐộ chính xác cmSub-cm

Ai sẽ dùng

  • Team huấn luyện VLA (vision-language-action): dùng làm nguồn demo first-person sạch để pretrain policy.
  • Hãng robot hình người / dual-arm: thay teleop bằng "con người làm, robot học" — tiết kiệm thời gian đạo diễn.
  • Phòng lab world-model: Gen Ego Data cung cấp chuỗi nhân quả perception–action–outcome ở quy mô ngàn hộ gia đình.
  • Các startup bị kẹt sim2real gap: dữ liệu thật multi-view mang lại phân phối sát môi trường deploy hơn sim.

Gen Ego Data — dataset đi kèm

Song song với phần cứng, GenRobot mở 10Kh RealOmin-Open Dataset trên Hugging Face. Con số cam kết: 10.000+ giờ, 1 triệu+ clip, 95TB khi hoàn tất. Hiện đã phát hành ~76k clip (~1.600 giờ, 5.4TB) qua hai giai đoạn. Định dạng MCAP/Protobuf, license CC-BY-SA-4.0. Skill tập trung vào thao tác gia đình: gấp quần áo, cột dây giày, rót nước, phân loại đồ — thu từ 3.000+ hộ gia đình.

Hạn chế & giá

  • Giá phần cứng: chưa công bố công khai — có khả năng đi qua kênh B2B / research partner.
  • Pin 3.5 giờ giới hạn phiên thu liên tục; cần quy trình xoay pin nếu chạy lớn.
  • Độ phủ skill thực tế: marketing nói "200+ skills, 20+ môi trường", nhưng dataset card HF liệt kê 30 skill lõi trên 10 kịch bản gia đình — sát hơn với workload household manipulation, chưa phải general-purpose.
  • CC-BY-SA-4.0 yêu cầu share-alike: sản phẩm thương mại dùng phải cân nhắc nghĩa vụ bản quyền phái sinh.

Bước tiếp theo

GenRobot đang mở rộng bộ dữ liệu lên mốc 95TB / 10k giờ / 1M clip, đồng thời hoàn thiện stack full-body khi kết hợp DAS Ego (đầu) với DAS Gripper (tay dual-arm tactile) đã có mặt trên thị trường. Với hệ sinh thái humanoid đang nóng — Figure, 1X, Unitree, Tesla Optimus đều thiếu dữ liệu thật đủ đa dạng — việc một công ty Trung Quốc chọn hướng "bán cuốc xẻng" thay vì bán robot là một cược đáng theo dõi.

Nguồn: GenRobot DAS Ego, GenRobot Open Dataset, Hugging Face – 10Kh RealOmin.