NVIDIA Isaac GR00T N1.7: VLA model 3B params, open & thương mại cho humanoid robot

TL;DR

NVIDIA vừa mở Early Access cho Isaac GR00T N1.7 — Vision-Language-Action (VLA) foundation model 3B tham số, cấp phép thương mại, dành cho humanoid robot. Điểm đột phá: pre-train trên 20,854 giờ video egocentric người thật (dataset EgoScale) và phát hiện scaling law đầu tiên cho robot dexterity — tăng data từ 1k lên 20k giờ thì gấp đôi tỉ lệ hoàn thành task. Code Apache 2.0, weights NVIDIA Open Model License, có sẵn trên Hugging Face + GitHub.

NVIDIA Isaac GR00T platform overview: Foundation Models, Synthetic Data, Isaac Sim, Thor Computer

Có gì mới

GR00T N1.7 là bản cập nhật lớn so với N1.6, không chỉ patch nhỏ:

VLM backbone mới — Cosmos-Reason2-2B (Qwen3-VL) thay cho Eagle, tăng khả năng reasoning đa bước và hiểu ngôn ngữ tự nhiên.
EgoScale pre-training — 20,854 giờ video egocentric người thật, trải 20+ task category (sản xuất, bán lẻ, y tế, gia đình) — nhảy vọt từ vài nghìn giờ teleoperation robot của N1.6.
Drop-in swap — embodiment config và workflow cũ vẫn chạy, không phải viết lại pipeline.
Full export sang ONNX và TensorRT ngay từ repo chính thức.
Pipeline xử lý data đơn giản hơn, giảm friction cho team fine-tune nội bộ.

Vì sao quan trọng

Đây là lần đầu tiên có bằng chứng scaling law cho robot dexterity tương tự scaling law LLM: cho thêm data (đặc biệt là video người thao tác) thì năng lực dexterous manipulation cải thiện đều đặn, dự đoán được. Với LLM, phát hiện này kéo theo cả làn sóng foundation model. Với robot, nếu scaling law đúng rộng hơn, công thức mới là "cứ thu thêm video egocentric người thật là robot sẽ khéo tay hơn" — rẻ hơn teleoperation nhiều lần.

Ngoài ra, license thương mại mở giúp startup robot và nhà máy dùng thẳng trong sản phẩm thật mà không phải đàm phán license riêng như các đối thủ VLA khác.

Chi tiết kỹ thuật

Kiến trúc Action Cascade hai tầng (dual-system):

System 2 (chậm, lý luận): Cosmos-Reason2-2B VLM — nhận RGB frame + câu lệnh ngôn ngữ, sinh high-level action token và phân rã task.
System 1 (nhanh, điều khiển): Diffusion Transformer 32 layer — nhận action token từ System 2 + robot state (joint position/velocity, EEF pose), denoise ra motor command liên tục theo thời gian thực.

Property	GR00T N1.7
Total params	3B
VLM backbone	Cosmos-Reason2-2B (Qwen3-VL)
Action head	32-layer Diffusion Transformer
Denoising steps	4
Inference GPU	16GB+ VRAM (RTX 4090 / L40 / H100 / Jetson AGX Thor / DGX Spark)
Fine-tune GPU	40GB+ VRAM (H100/L40 khuyến nghị)
Pre-training data	20,854 giờ video egocentric (EgoScale)
Code license	Apache 2.0
Weights license	NVIDIA Open Model License (thương mại)

So với N1.6

Aspect	N1.6	N1.7
VLM backbone	Eagle	Cosmos-Reason2-2B / Qwen3-VL
Pre-training	Vài nghìn giờ teleoperation	20,854 giờ EgoScale human video
Scaling law	Chưa chứng minh	1k → 20k giờ → 2× task completion
Export	Hạn chế	ONNX + TensorRT đầy đủ
Config cũ	—	Drop-in swap, không phải viết lại

Use case và robot hỗ trợ

GR00T N1.7 nhắm thẳng sàn nhà máy và môi trường thật:

Material handling — di chuyển, sắp xếp linh kiện.
Packaging & inspection — đóng gói, kiểm tra QC.
Loco-manipulation — robot vừa di chuyển vừa thao tác.
Dexterous bimanual — hai tay phối hợp, bàn tay 22 DoF xử lý chi tiết nhỏ (lắp ráp, thao tác contact-rich).

Robot validated: Unitree G1, AGIBot Genie 1, Bimanual Manipulator YAM, Franka Panda (LIBERO benchmark), WidowX, Google Robot (SimplerEnv), DROID, SO100 arm. Pre-register embodiments: UNITREE_G1, LIBERO_PANDA, OXE_WIDOWX, và cho phép register embodiment tuỳ biến.

Giới hạn & giá

Early Access — API và checkpoint có thể thay đổi trước bản GA.
Chưa có bảng benchmark so sánh công khai với OpenVLA, RT-2, hay π0 trong bài blog — phải tự reproduce.
Bản chính thức HF/GitHub không kèm pricing — weights + code miễn phí, kể cả deploy production.
Gate phần cứng: tối thiểu GPU 16GB VRAM cho inference. Fine-tune thực tế cần 40GB+, lý tưởng là node H100/L40.
Platform driver: CUDA 12.8 / Python 3.10 cho dGPU, CUDA 13.0 / Python 3.12 cho Jetson Thor & DGX Spark.

NVIDIA kêu gọi cộng đồng fine-tune và feedback từ deployment thật. GR00T N là series model nên N1.8/N2 gần như chắc chắn sẽ tới, có thể mở rộng EgoScale lên 50k–100k giờ nếu scaling law giữ vững. Với mô hình 3B chạy được trên Jetson AGX Thor, kịch bản thú vị là fleet humanoid edge-inference triển khai diện rộng mà không cần cloud round-trip.

Thử ngay: HF blog, model weights, GitHub repo.

Nguồn: Hugging Face, NVIDIA GitHub, NVIDIA Developer.