SimToolReal: Robot Stanford học dùng công cụ chưa từng thấy — không cần training riêng cho từng task

TL;DR

SimToolReal là sim-to-real reinforcement learning framework từ Stanford × Cornell (Kushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu) cho phép một bàn tay robot 5 ngón zero-shot cầm và sử dụng các công cụ chưa từng gặp — búa, marker, brush, spatula, screwdriver — chỉ từ một video người demo. Policy train trong IsaacGym với 24,576 môi trường song song trên các tool primitives sinh tự động (handle + head dạng cylinder/cuboid), reward duy nhất là đạt 6D goal pose. Vượt baseline (kinematic retargeting + fixed grasp) 37% qua 120 rollouts thật, match được specialist policies mà không cần train cho object hay task cụ thể nào.

Robot SimToolReal cầm hàng loạt công cụ chưa từng thấy: búa, marker, brush

What's new

Trước SimToolReal, sim-to-real RL cho dexterous manipulation luôn vấp một bottleneck: per-task engineering. Muốn dạy robot cầm búa? Phải mô hình hoá búa trong sim, design reward riêng. Muốn xoay marker? Reward khác. Muốn quét brush? Reward khác nữa. Mỗi tool mới = vài tuần engineering.

Cách tiếp cận của tác giả là object-centric lens: bỏ qua khái niệm "task" hoàn toàn. Mọi tool-use task đều có thể quy về một thứ duy nhất — đưa object qua một chuỗi 6D goal poses. Vậy thì train một policy duy nhất với mục tiêu universal: lấy bất kỳ object dạng tool-like nào, cầm nó từ mặt bàn, xoay tới goal pose, giữ chắc khi tương tác. Tool primitives sinh procedural — handle 5–30 cm × 1–4 cm + head 1–15 cm × 0.5–12 cm, mật độ randomize từ 300–600 kg/m³ (handle gỗ/nhựa) đến 300–2000 kg/m³ (đầu kim loại nặng) — đủ phổ phương sai để policy học cách thích nghi.

Tại test-time, robot thấy 1 tool thật chưa từng có trong training. Hệ thống chạy SAM 3D trên 1 frame RGB-D để dựng mesh + bounding box vùng cầm, rồi FoundationPose để track 6D pose từ video người demo. Policy lấy chuỗi pose đó làm goal sequence và thi hành — zero-shot, không retrain.

Pipeline SimToolReal: train policy trên procedural primitives trong sim, deploy trên tool thật theo human video

Why it matters

Đây không phải bài "thêm 5% performance" thông thường. Nó tấn công đúng vào điểm tắc của robotics dexterity: nếu mỗi kỹ năng mới đều cần engineering chuyên biệt, robot không bao giờ scale ra ngoài lab. Tách bạch "học general dexterity" khỏi "chỉ định task" cho phép pipeline mới: muốn robot làm việc gì → quay 1 video người làm → robot bắt chước. Không retrain, không reward shaping.

Một insight quan trọng nữa: tác giả chứng minh được training objective predicts generalization. Cải thiện performance trên bài toán "đạt random goal pose với primitive" trong sim correlate mạnh với Task Progress trên DexToolBench thật. Tức là có một loop scale rõ ràng — sim càng đa dạng + reward càng general → robot càng giỏi tool thật.

Technical facts

Hạng mục	Số liệu
Robot	22-DoF Sharpa five-fingered hand + 7-DoF KUKA iiwa 14 = 29-DoF
Camera	ZED 1 stereo (RGB-D)
Simulator	IsaacGym, 24,576 môi trường song song
Sim/control freq	120 Hz physics / 60 Hz control
Algorithm	SAPG + Asymmetric Critic, LSTM[1024] + MLP[1024,1024,512,512] actor
Action space	29-D, arm = relative deltas, hand = absolute joint targets
Success tolerance	2 cm (object pose vs goal)
Perception	SAM 3D (mesh) + SAM 2 (segmentation) + FoundationPose (6D pose)
Benchmark	DexToolBench: 24 task trajectories × 12 object instances × 6 tool categories
Real-world rollouts	120 thử nghiệm thật, mỗi task 5 trials

Comparison vs baselines

Trên DexToolBench, SimToolReal vượt 2 baseline mạnh nhất hiện tại:

Kinematic Retargeting: Fail từ bước grasp — không reason được contact forces.
Fixed Grasp: OK với task không cần xoay tay (eraser, marker), nhưng fail thảm trên hammer/brush/spatula vì cố xoay bằng arm → đập vào environment.

Trung bình SimToolReal hơn cả hai 37% Task Progress. Thú vị hơn là so với specialist policies — policy train chuyên cho 1 object + 1 trajectory cụ thể: SimToolReal match performance trên setup gốc (Obj A / Traj A) NHƯNG specialist sụp đổ ngay khi đổi trajectory hoặc object, trong khi SimToolReal giữ vững zero-shot.

Bar chart so sánh Task Progress: SimToolReal zero-shot ngang specialist trên Obj A/Traj A, vượt xa khi đổi trajectory hoặc object

Use cases — DexToolBench results

120 rollouts thật cho ra bức tranh chi tiết theo từng tool:

Hammer (Claw + Mallet): swing down/side đóng đinh — gần 100% nhiều task.
Eraser (Handle + Flat): wipe whiteboard — gần 100%.
Marker (Sharpie + Staples): vẽ smile, viết "C" trên whiteboard — 80–90%.
Spatula (Spoon + Flat): scoop / serve / 180° flip — 80–90%.
Brush & Screwdriver: sweep / spin 360° — 50–70% (giảm vì brush nặng + screwdriver thin shaft khó track pose).

Đáng chú ý: policy có recovery behavior — khi rớt object, nó tự re-grasp miễn pose tracking còn ON. Đây là hệ quả tự nhiên của training trên random goal poses, không phải code thủ công.

Limitations & pricing

Nhóm tác giả minh bạch về 4 hạn chế chính:

Track pose, không guarantee functional task completion. Đóng đinh thật cần lực — policy có thể swing nhưng không đảm bảo đinh đi vào gỗ.
Environment-blind. Chỉ condition trên object pose → dễ collide trong cluttered scene.
Rigid tools only. Không xử lý được scissors / kéo / tool nhiều khớp.
Goal sequence cố định — không re-plan động khi tình huống đổi.

Phân tích failure (over 120 rollouts):

Pose tracking loss: 43.7% — FoundationPose fail khi heavy occlusion, rotational symmetry (marker hình trụ), hoặc low contrast.
Object drops: 34.5% — đặc biệt với mallet hammer 331g và blue brush 325g.
Incomplete in-hand rotation: 18.2% — flat spatula ~1cm quá mỏng.
Grasp failures: 3.6% — marker dễ lăn khỏi bàn.

Pricing: Open-source MIT license. Code, IsaacGym envs, DexToolBench data, RL training script, deployment pipeline — tất cả trên GitHub: tylerlum/simtoolreal. Để chạy real-world cần KUKA iiwa 14 + Sharpa hand + ZED stereo + GPU mạnh — không rẻ, nhưng research code free.

What's next

Tác giả đề xuất hướng kế tiếp tập trung vào failure mode lớn nhất là perception:

Multi-camera views để giảm occlusion (43.7% failures hiện đến từ pose tracking loss).
Temporal consistency trong 2D tracking để FoundationPose không "mất" object khi bị che.
State representation phong phú hơn pose 6D — để xử lý tool non-rigid (scissors, articulated).
Dynamic re-planning goal sequence dựa trên tình huống thực tế.
Environment-aware policy (thêm scene context).

Câu hỏi mở rộng hơn: liệu object-centric lens có scale lên các class manipulation khác không — soft objects, multi-tool sequences (đập búa rồi vặn screwdriver), hay collaboration giữa 2 bàn tay? Paper là proof-of-concept rất mạnh cho hướng "general policy + lightweight perception" trong robotics.

Nguồn: simtoolreal.github.io, arXiv 2602.16863, GitHub, Hugging Face.