TL;DR

FluxVLA Engine là framework engineering full-stack cho Vision-Language-Action models, vừa được LimX Dynamics open-source trên GitHub dưới giấy phép Apache-2.0. Nó giải quyết 3 nỗi đau lớn nhất của embodied AI hiện nay: dữ liệu phân mảnh giữa các giai đoạn, code train–sim–deploy bị coupling chặt, và khoảng cách sim-to-real khi triển khai lên robot thật. Một file config duy nhất chạy toàn bộ pipeline từ data đến robot, tăng tốc inference 5–10×, đạt 98.4 điểm trung bình trên LIBERO — và đưa policy từ training đến deployment trong khoảng 30 phút.

FluxVLA Engine hero banner

Có gì mới

Cho tới trước FluxVLA, mỗi lab robotics tự viết một mớ script để dán ba thế giới lại với nhau: dataset training (HuggingFace / LeRobot format), môi trường sim (LIBERO, Isaac Sim), và stack deploy trên robot thật (UR, ALOHA). Mỗi lần đổi vision encoder hay action head là phải viết lại pipeline — tốn tuần, dễ sai.

FluxVLA gom tất cả về một config file YAML duy nhất, điều khiển data → model → training → evaluation → inference → deployment. Interface chuẩn hoá cho phép swap module như LEGO: đổi backbone từ Qwen 2.5 sang Llama 2, hoặc đổi action head từ Diffusion Transformer sang Flow Matching Head mà không phải chạm training loop.

Vì sao quan trọng

Embodied AI đang ở đúng thời điểm NLP năm 2019 — trước khi HuggingFace Transformers xuất hiện. Research chạy nhanh, nhưng mỗi nhóm viết lại infrastructure từ đầu, khiến benchmarks không so sánh được và policy khó tái sản xuất. FluxVLA đặt cược vào chuẩn hoá như con đường để cộng đồng cùng đi nhanh hơn.

Với startup robotics, lợi ích cụ thể: một dev có thể đưa demo từ Isaac Sim lên cánh tay UR thật trong cùng buổi chiều, thay vì mất 2 tuần viết adapter. Với lab nghiên cứu, ablation study giờ là đổi 3 dòng config thay vì fork cả repo.

Thông số kỹ thuật

Kiến trúc framework FluxVLA

Framework chia 4 tầng — Data Pipeline, Model, Training Engine, Inference Engine — giao tiếp qua interface chuẩn.

Thành phầnTuỳ chọn hỗ trợ
VLA modelsOpenVLA (7B), LlavaVLA, GR00T N1.5 (3B), Pi0, Pi0.5
LLM backbonesQwen 2.5 (3B/7B), Llama 2 (7B), Gemma
Vision backbonesDINOv2, SigLIP, SigLIP2, PaliGemma
VLM backbonesQwen2.5-VL (3B), Qwen-VL
TrainingFSDP + DDP, LoRA, eval-after-train, resume checkpoint
InferenceTriton fused kernels, CUDA Graph capture, CUDA custom ops
SimulationLIBERO (multi-GPU, không cần ray tracing)
RobotsUR3, ALOHA, AgileX ALOHA, LimX TRON 2

Điểm nhấn là RTC (Real-Time Chunking) — kỹ thuật smoothing trajectory giữa các chunk inference, giúp robot chuyển động mượt khi policy sinh action theo từng đoạn, khép lại khoảng cách sim-to-real.

So sánh với các lựa chọn khác

Biểu đồ tăng tốc inference VLA

Trên A100, GR00T N1.5 baseline chạy 5.96 Hz — sau khi bật tuần tự Vision CUDA Graph, LLM CUDA Graph, Head CUDA Graph, và Triton Kernels thì đạt 32.6 Hz (≈5.5×). Pi0.5 từ 2.2 Hz lên 21.2 Hz (~9.6×). Trên RTX 5090, con số còn cao hơn: GR00T đạt 42.8 Hz, Pi0.5 đạt 31.6 Hz.

KhungĐiểm mạnhKhác biệt của FluxVLA
OpenVLA (Stanford)Một model + recipe trainingFluxVLA host OpenVLA như 1 trong nhiều backbone, bổ sung deploy path
NVIDIA Isaac GR00TFoundation model cho humanoidFluxVLA wrap GR00T N1.5 và tăng tốc 5.5–7× qua Triton + CUDA Graph
StarVLACodebase kiểu LEGOFluxVLA ship thêm deploy tới UR/ALOHA/TRON 2 out-of-the-box

Trên benchmark LIBERO, FluxVLA(Pi) đạt 99.4 Spatial, 99.4 Object, 98.0 Goal, 96.8 Long — trung bình 98.4. Biến thể FluxVLA(Qwen3VL+GR00T) đạt 98.0–99.2.

Use cases

  • Lab nghiên cứu VLA: thử kiến trúc mới (ví dụ thay Causal Transformer bằng Flow Matching) mà không viết lại training loop.
  • Startup robotics: đưa policy demo từ LIBERO sim lên UR3 hoặc ALOHA bimanual rig trong một chiều.
  • Humanoid builder: dùng TRON 2 adapter cùng GR00T N1.5, chạy real-world runner mà không cần custom infra.
  • Industrial integrator: pipeline tái sản xuất được từ demonstration data đến triển khai nhà máy, rút workflow từ vài tuần xuống ~30 phút.

Giới hạn & chi phí

Framework hoàn toàn miễn phí, Apache-2.0. Yêu cầu GPU CUDA 12.4; OpenVLA 7B cần multi-GPU. Các cánh tay ngoài danh sách (UR3, ALOHA, AgileX, TRON 2) sẽ phải viết adapter riêng. LIBERO là sim native; Isaac Sim integration đã được announce nhưng docs sâu vẫn đang hoàn thiện. Ưu tiên Linux, chưa có Windows chính thức.

Sắp tới

LimX Dynamics định vị FluxVLA là "HuggingFace Transformers cho VLA" — lớp chuẩn hoá để nghiên cứu embodied AI tiến nhanh hơn. Roadmap theo cấu trúc repo cho thấy hướng mở rộng: thêm VLA backbones, tích hợp sim sâu hơn với Isaac Sim, adapter cho nhiều robot khác, và backbone LLM lớn hơn cho tác vụ phức tạp.

Nguồn: GitHub limxdynamics/FluxVLA, ModelScope LimXDynamics/FluxVLAEngine, ModelScope X announcement.