TL;DR

NVIDIA Research vừa công bố Kimodo (Kinematic Motion Diffusion) — mô hình diffusion 282M tham số sinh chuyển động 3D cho người và robot hình người từ prompt text. Huấn luyện trên 700 giờ optical mocap chuyên nghiệp (bộ Bones Rigplay 1, lớn gấp ~25× HumanML3D), Kimodo tạo motion sequence tối đa 10 giây trong 2–5 giây trên RTX 3090. Hỗ trợ nguyên bản khung xương SOMA, SMPL-X và robot Unitree G1; output đẩy thẳng vào MuJoCo hoặc retarget sang robot khác qua GMR. Code Apache-2.0, checkpoint SOMA/G1 phát hành theo NVIDIA Open Model License (dùng thương mại được). Cần ~17GB VRAM.

Kimodo pipeline: motion generated → simulated → deployed trên Unitree G1

What's new

Released lần đầu ngày 16/03/2026 kèm paper arXiv 2603.15546, Kimodo tiếp tục có breaking change ngày 19/03 chuyển sang SOMA skeleton 77-joint, rồi đến 10/04/2026 ra mắt v1.1 cho SOMA cùng Motion Generation Benchmark chính thức. Gói repo nv-tlabs/kimodo gồm: inference CLI, web demo tương tác có timeline editor (chạy local trên 127.0.0.1:7860), bộ text annotation fine-grained cho BONES-SEED, và pipeline evaluation với embedding model TMR-SOMA-RP-v1 để tính R-precision, FID.

Năm biến thể v1 gốc trải trên ba skeleton: Kimodo-SOMA-RPKimodo-SOMA-SEED cho nhân vật digital (30 joint, nay 77 joint), Kimodo-G1-RPKimodo-G1-SEED cho Unitree G1 (34 joint), và Kimodo-SMPLX-RP (22 joint) cho tương thích AMASS.

Vì sao đáng chú ý

Cuộc đua humanoid robot (Figure, 1X, Agility, Boston Dynamics, Unitree) đang chuyển bottleneck từ compute sang dữ liệu chuyển động. Trước Kimodo, muốn sinh demo motion cho một robot cụ thể bạn có ba lựa chọn đều đau: teleop thủ công (chậm, chuyển động gượng), mocap studio (đắt, lắp dựng phức tạp), hoặc reconstruct từ video đơn (chất lượng thấp). Kimodo biến vòng lặp đó thành một prompt text và 2–5 giây inference — với output là chuỗi joint-angle mà chân tay, tầm với của G1 thật sự thực thi được.

Điểm khác biệt cốt lõi so với các text-to-motion trước (MDM, MotionDiffuse, MoMask, MotionGPT): Kimodo hoạt động trực tiếp trong explicit pose space, cho phép áp kinematic constraints ngay trong mỗi bước denoising thay vì phải tối ưu ở test time hoặc fine-tune ControlNet.

Tech facts

Kiến trúc two-stage của Kimodo: Stage 1 text → whole-body kinematics, Stage 2 G1 retargeting

Thuộc tínhGiá trị
Tham số (model L)282M
Kiến trúcTwo-stage transformer denoiser (16 layer × 8 head × latent 1024)
Text encoderLLM2Vec 4096-d (tốt hơn CLIP & T5 trong ablation)
Diffusion steps1000 train / 100 DDIM inference
Dữ liệu trainBones Rigplay 1 (700h, đóng) + BONES-SEED (288h, mở) = ~1,000h
Inference2–5 giây trên RTX 3090
Độ dài clip tối đa10 giây (300 frame @ 30 fps)
VRAM tối thiểu~17GB (chủ yếu cho text encoder)
Skeleton hỗ trợSOMA (77-joint), Unitree G1 (34-joint), SMPL-X (22-joint)
Output formatsNPZ native, MuJoCo qpos CSV, AMASS NPZ

Về benchmark chất lượng trên test set Rigplay: model L đạt R@3 = 71.9 (ground-truth 75.6), FID = 1.85, foot-skate 3.87 cm/s. Về constraint following: sai số vị trí toàn thân 2.67 cm, end-effector 3.09 cm, rotation 4.18°, 2D root 2.90 cm — đủ chính xác để ghép vào animation pipeline.

Ba cách điều khiển

Ví dụ motion từ single text prompt trong paper Kimodo

Kimodo nhận đồng thời text prompt và các kinematic constraint. Có bốn trục control:

  1. Full-body keyframes — cắm pose tại frame cụ thể (ví dụ start và end của một transition), Kimodo tự sinh phần giữa.
  2. End-effector positions/rotations — ghim tay/chân vào vị trí 3D (cho tương tác object) hoặc góc xoay cụ thể.
  3. 2D waypoints & dense paths — vẽ đường đi trên mặt đất, nhân vật đi theo với pelvis motion tự nhiên.
  4. Multi-prompt timeline — chuỗi nhiều prompt nối tiếp, model tự xử lý transition bằng ràng buộc liên đoạn.

So với các model trước

ModelDataControl modeRobot support
MDM / MotionDiffuse~30h (HumanML3D)Text onlyKhông
MoMask / MMM~30hText + latent, cần test-time opt cho constraintKhông
MotionGPT~30hAutoregressive token, constraint yếuKhông
OmniControl~30hControlNet fine-tune cho constraintKhông
Kimodo~1,000hExplicit pose space, native constraint imputationUnitree G1 gốc

Use cases

Web demo Kimodo với timeline editor để chain nhiều prompt

  • Robotics — sinh demo nhanh cho humanoid: phục hồi từ vấp, cầm nắm, bàn giao vật thể. Randomize constraint để tạo dataset đa dạng ở quy mô lớn.
  • Digital twin & sim công nghiệp — populate warehouse, factory bằng người số vận động thực tế.
  • Animation & game — in-betweening giữa các clip mocap có sẵn, route nhân vật qua navmesh bằng 2D path.
  • Research — baseline mạnh cho text-conditioned motion control.

Workflow chuẩn cho robot: Kimodo sinh kinematic sequence → xuất MuJoCo CSV hoặc AMASS NPZ → ProtoMotions (NVIDIA framework RL vật lý) biến thành control policy thực thi được → GEAR-SONIC deploy lên robot thật. Với robot ngoài G1, dùng Kimodo-SMPLX rồi retarget bằng GMR (General Motion Retargeting).

Hạn chế & pricing

Kimodo là motion choreographer, không phải robot controller. Điều đó đi kèm bốn hạn chế cần ghi nhớ:

  • Không có physics — output chỉ là quỹ đạo joint, không tính lực/torque. Muốn deploy phải qua ProtoMotions để sinh policy.
  • Trần 10 giây — một lần sinh tối đa 10 giây. Tác vụ dài kiểu "đi tới workstation, nhấc linh kiện, mang sang dây chuyền, đặt xuống" (30s+) phải nối nhiều segment trên timeline.
  • Không real-time — 2–5s inference là offline authoring, không phản ứng với obstacle bất ngờ giữa chừng.
  • Rào cản hardware — 17GB VRAM đẩy yêu cầu lên RTX 3090/4090 hoặc A100.

Code miễn phí (Apache-2.0). Checkpoint SOMA và G1 theo NVIDIA Open Model License — commercial use OK. SMPL-X (Rigplay) chỉ R&D. Có HuggingFace Space miễn phí để thử ngay trên browser. Lưu ý quan trọng về dữ liệu: Bones Rigplay 1 (700h, phần "engine" của chất lượng Kimodo) là proprietary, không public — BONES-SEED 288h mới là phần mở. Model train riêng trên SEED có mặt trong repo để so sánh fair, nhưng chất lượng kém hơn đáng kể so với phiên bản Rigplay.

What's next

Ba hướng roadmap theo section "Future Challenges" của paper:

  1. Scale với video data — kết hợp motion reconstruct từ internet/synthetic video với mocap clean mà không tụt chất lượng.
  2. Real-time reactive control — đưa diffusion sang latent space học được, reformulate sinh motion thành autoregressive để dùng runtime cho robot và digital twin.
  3. Scene & object interaction — hiện tại model zero-awareness với object xung quanh. Thu thập data cho bài này là bài toán mở.

Cùng hệ sinh thái: SOMA body model, BONES-SEED dataset, GEM (video→3D motion), GEAR-SONIC/GR00T-WholeBodyControl.

Nguồn: NVIDIA Research, nv-tlabs/kimodo, arXiv 2603.15546, Hugging Face.