NVIDIA Kimodo: Mô hình diffusion biến câu lệnh text thành chuyển động cho robot hình người

TL;DR

NVIDIA Research vừa công bố Kimodo (Kinematic Motion Diffusion) — mô hình diffusion 282M tham số sinh chuyển động 3D cho người và robot hình người từ prompt text. Huấn luyện trên 700 giờ optical mocap chuyên nghiệp (bộ Bones Rigplay 1, lớn gấp ~25× HumanML3D), Kimodo tạo motion sequence tối đa 10 giây trong 2–5 giây trên RTX 3090. Hỗ trợ nguyên bản khung xương SOMA, SMPL-X và robot Unitree G1; output đẩy thẳng vào MuJoCo hoặc retarget sang robot khác qua GMR. Code Apache-2.0, checkpoint SOMA/G1 phát hành theo NVIDIA Open Model License (dùng thương mại được). Cần ~17GB VRAM.

Kimodo pipeline: motion generated → simulated → deployed trên Unitree G1

What's new

Released lần đầu ngày 16/03/2026 kèm paper arXiv 2603.15546, Kimodo tiếp tục có breaking change ngày 19/03 chuyển sang SOMA skeleton 77-joint, rồi đến 10/04/2026 ra mắt v1.1 cho SOMA cùng Motion Generation Benchmark chính thức. Gói repo nv-tlabs/kimodo gồm: inference CLI, web demo tương tác có timeline editor (chạy local trên 127.0.0.1:7860), bộ text annotation fine-grained cho BONES-SEED, và pipeline evaluation với embedding model TMR-SOMA-RP-v1 để tính R-precision, FID.

Năm biến thể v1 gốc trải trên ba skeleton: Kimodo-SOMA-RP và Kimodo-SOMA-SEED cho nhân vật digital (30 joint, nay 77 joint), Kimodo-G1-RP và Kimodo-G1-SEED cho Unitree G1 (34 joint), và Kimodo-SMPLX-RP (22 joint) cho tương thích AMASS.

Vì sao đáng chú ý

Cuộc đua humanoid robot (Figure, 1X, Agility, Boston Dynamics, Unitree) đang chuyển bottleneck từ compute sang dữ liệu chuyển động. Trước Kimodo, muốn sinh demo motion cho một robot cụ thể bạn có ba lựa chọn đều đau: teleop thủ công (chậm, chuyển động gượng), mocap studio (đắt, lắp dựng phức tạp), hoặc reconstruct từ video đơn (chất lượng thấp). Kimodo biến vòng lặp đó thành một prompt text và 2–5 giây inference — với output là chuỗi joint-angle mà chân tay, tầm với của G1 thật sự thực thi được.

Điểm khác biệt cốt lõi so với các text-to-motion trước (MDM, MotionDiffuse, MoMask, MotionGPT): Kimodo hoạt động trực tiếp trong explicit pose space, cho phép áp kinematic constraints ngay trong mỗi bước denoising thay vì phải tối ưu ở test time hoặc fine-tune ControlNet.

Tech facts

Kiến trúc two-stage của Kimodo: Stage 1 text → whole-body kinematics, Stage 2 G1 retargeting

Thuộc tính	Giá trị
Tham số (model L)	282M
Kiến trúc	Two-stage transformer denoiser (16 layer × 8 head × latent 1024)
Text encoder	LLM2Vec 4096-d (tốt hơn CLIP & T5 trong ablation)
Diffusion steps	1000 train / 100 DDIM inference
Dữ liệu train	Bones Rigplay 1 (700h, đóng) + BONES-SEED (288h, mở) = ~1,000h
Inference	2–5 giây trên RTX 3090
Độ dài clip tối đa	10 giây (300 frame @ 30 fps)
VRAM tối thiểu	~17GB (chủ yếu cho text encoder)
Skeleton hỗ trợ	SOMA (77-joint), Unitree G1 (34-joint), SMPL-X (22-joint)
Output formats	NPZ native, MuJoCo `qpos` CSV, AMASS NPZ

Về benchmark chất lượng trên test set Rigplay: model L đạt R@3 = 71.9 (ground-truth 75.6), FID = 1.85, foot-skate 3.87 cm/s. Về constraint following: sai số vị trí toàn thân 2.67 cm, end-effector 3.09 cm, rotation 4.18°, 2D root 2.90 cm — đủ chính xác để ghép vào animation pipeline.

Ba cách điều khiển

Ví dụ motion từ single text prompt trong paper Kimodo

Kimodo nhận đồng thời text prompt và các kinematic constraint. Có bốn trục control:

Full-body keyframes — cắm pose tại frame cụ thể (ví dụ start và end của một transition), Kimodo tự sinh phần giữa.
End-effector positions/rotations — ghim tay/chân vào vị trí 3D (cho tương tác object) hoặc góc xoay cụ thể.
2D waypoints & dense paths — vẽ đường đi trên mặt đất, nhân vật đi theo với pelvis motion tự nhiên.
Multi-prompt timeline — chuỗi nhiều prompt nối tiếp, model tự xử lý transition bằng ràng buộc liên đoạn.

So với các model trước

Model	Data	Control mode	Robot support
MDM / MotionDiffuse	~30h (HumanML3D)	Text only	Không
MoMask / MMM	~30h	Text + latent, cần test-time opt cho constraint	Không
MotionGPT	~30h	Autoregressive token, constraint yếu	Không
OmniControl	~30h	ControlNet fine-tune cho constraint	Không
Kimodo	~1,000h	Explicit pose space, native constraint imputation	Unitree G1 gốc

Use cases

Web demo Kimodo với timeline editor để chain nhiều prompt

Robotics — sinh demo nhanh cho humanoid: phục hồi từ vấp, cầm nắm, bàn giao vật thể. Randomize constraint để tạo dataset đa dạng ở quy mô lớn.
Digital twin & sim công nghiệp — populate warehouse, factory bằng người số vận động thực tế.
Animation & game — in-betweening giữa các clip mocap có sẵn, route nhân vật qua navmesh bằng 2D path.
Research — baseline mạnh cho text-conditioned motion control.

Workflow chuẩn cho robot: Kimodo sinh kinematic sequence → xuất MuJoCo CSV hoặc AMASS NPZ → ProtoMotions (NVIDIA framework RL vật lý) biến thành control policy thực thi được → GEAR-SONIC deploy lên robot thật. Với robot ngoài G1, dùng Kimodo-SMPLX rồi retarget bằng GMR (General Motion Retargeting).

Hạn chế & pricing

Kimodo là motion choreographer, không phải robot controller. Điều đó đi kèm bốn hạn chế cần ghi nhớ:

Không có physics — output chỉ là quỹ đạo joint, không tính lực/torque. Muốn deploy phải qua ProtoMotions để sinh policy.
Trần 10 giây — một lần sinh tối đa 10 giây. Tác vụ dài kiểu "đi tới workstation, nhấc linh kiện, mang sang dây chuyền, đặt xuống" (30s+) phải nối nhiều segment trên timeline.
Không real-time — 2–5s inference là offline authoring, không phản ứng với obstacle bất ngờ giữa chừng.
Rào cản hardware — 17GB VRAM đẩy yêu cầu lên RTX 3090/4090 hoặc A100.

Code miễn phí (Apache-2.0). Checkpoint SOMA và G1 theo NVIDIA Open Model License — commercial use OK. SMPL-X (Rigplay) chỉ R&D. Có HuggingFace Space miễn phí để thử ngay trên browser. Lưu ý quan trọng về dữ liệu: Bones Rigplay 1 (700h, phần "engine" của chất lượng Kimodo) là proprietary, không public — BONES-SEED 288h mới là phần mở. Model train riêng trên SEED có mặt trong repo để so sánh fair, nhưng chất lượng kém hơn đáng kể so với phiên bản Rigplay.

What's next

Ba hướng roadmap theo section "Future Challenges" của paper:

Scale với video data — kết hợp motion reconstruct từ internet/synthetic video với mocap clean mà không tụt chất lượng.
Real-time reactive control — đưa diffusion sang latent space học được, reformulate sinh motion thành autoregressive để dùng runtime cho robot và digital twin.
Scene & object interaction — hiện tại model zero-awareness với object xung quanh. Thu thập data cho bài này là bài toán mở.

Cùng hệ sinh thái: SOMA body model, BONES-SEED dataset, GEM (video→3D motion), GEAR-SONIC/GR00T-WholeBodyControl.

Nguồn: NVIDIA Research, nv-tlabs/kimodo, arXiv 2603.15546, Hugging Face.

NVIDIA Kimodo: Mô hình diffusion biến câu lệnh text thành chuyển động cho robot hình người

TL;DR

What's new

Vì sao đáng chú ý

Tech facts

Ba cách điều khiển

So với các model trước

Use cases

Hạn chế & pricing

What's next

Tiếp tục lướt

Mozilla ra mắt Thunderbolt — AI client mã nguồn mở chạy trên hạ tầng của chính bạn

DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ

Hermes Agent v0.11.0: Nous Research ships biggest update yet with 761 PRs, TUI v2, and QQBot

Hermes Agent v0.11.0: Bản cập nhật lớn nhất với 761 PR, TUI React/Ink mới và 17 messaging platform

MultiWorld — Video World Model đầu tiên sinh video đa agent, đa góc nhìn