NVIDIA NemoClaw + OpenClaw: Dựng AI Agent Always-On Chạy 100% Local Trên DGX Spark

TL;DR

NVIDIA vừa công bố NemoClaw (16/03/2026) — reference stack open-source dựng OpenClaw, một gateway tự host kết nối Telegram/Slack với AI agent chạy hoàn toàn local. Chạy Nemotron 3 Super 120B (12B active params, 85.6% PinchBench) trên DGX Spark, sandbox bằng OpenShell, cài một câu lệnh bash. Setup 20–30 phút, tải model ~87 GB, latency 30–90s mỗi câu trả lời. Giá: free, chỉ cần phần cứng.

Có gì mới

NemoClaw là lớp điều phối bọc quanh OpenClaw — agent coding framework của Peter Steinberger. Mục tiêu: cho phép bất kỳ ai chạy một AI assistant 24/7, toàn local, không đụng tới cloud trừ khi bạn cho phép.

NemoClaw: installer + lifecycle management + blueprint cho full stack.
OpenShell: runtime sandbox — network namespace riêng, chặn request ra ngoài mặc định, UI real-time để approve/deny.
OpenClaw: gateway kết nối messaging platform với agent trong sandbox.
Privacy Router: chuyển query sang cloud model khi cần, nhưng tôn trọng policy bạn đặt.

"OpenClaw is the operating system for personal AI. This is the moment the industry has been waiting for." — Jensen Huang, CEO NVIDIA

Vì sao quan trọng

Chi phí token cloud đang trở thành rào cản lớn cho agent 24/7. Một agent chạy nền cả ngày gọi 1000+ request/ngày có thể tốn vài chục đến vài trăm USD/tháng chỉ riêng tiền API. NemoClaw giải bài toán "token tax" bằng cách đẩy inference về máy của bạn — không giới hạn request, không rate limit, không data rò rỉ.

Quan trọng hơn: với sandbox OpenShell, agent có thể chạy shell command, đọc file, gọi tool — mà không đụng được host filesystem hay network gốc. Đây là primitive còn thiếu của hầu hết agent framework hiện tại.

Thông số kỹ thuật

Component	Spec
Nemotron 3 Super	120B params, 12B active (MoE), 85.6% PinchBench
Nemotron 3 Nano	4B params, cho GeForce RTX, tool-use mạnh
Mistral Small 4	119B total, 6B active — chat + code + agent
Qwen 3.5	27B / 9B / 4B, vision native, 262K context window
Model size (disk)	~86 GB (Nemotron 3 Super 120B cached)
Download	~87 GB lần đầu
Inference latency	30–90 giây/response (120B trên DGX Spark)
Setup time	20–30 phút active + 15–30 phút tải model
OS target	Ubuntu 24.04 LTS + Docker 28.x + NVIDIA container runtime

So với cloud agent

Tiêu chí	NemoClaw + DGX Spark	Cloud agent (Claude / ChatGPT)
Token cost	$0	$X/tháng, scale theo request
Privacy	Data không rời máy	Gửi lên cloud provider
Latency	30–90s (120B local)	2–10s
Uptime	24/7, không rate limit	Rate limit + outage
Sandbox	OpenShell network namespace	Tuỳ provider

Trade-off rõ: đổi latency lấy privacy + chi phí biến mất. Hợp với agent chạy nền (review PR, monitor repo, tổng hợp email) hơn là chat real-time.

Use case thực tế

Personal assistant qua Telegram: hỏi bot từ điện thoại, câu trả lời đến từ DGX Spark ở nhà.
Coding agent always-on: review PR, refactor, monitor repo trong lúc bạn ngủ — chi phí không đổi dù chạy 1 câu hay 10.000 câu.
Agent cho data nhạy cảm: legal, medical, tài chính — nơi dữ liệu không được rời premises.
Orchestrator automation nhà: agent chạy shell trong sandbox, không với tay ra host.
Research assistant: đọc note/email/file cá nhân mà không upload đi đâu.

Cách triển khai nhanh

Flow từ blog NVIDIA:

DGX Spark + Ubuntu 24.04 LTS + Docker 28.x + NVIDIA container runtime.
Cài Ollama, set OLLAMA_HOST=0.0.0.0 để sandbox OpenShell (network namespace riêng) gọi được.
Pull Nemotron 3 Super (~87 GB).
Chạy NemoClaw installer → onboarding wizard.
Tạo Telegram bot qua @BotFather, nhập token.
Tin nhắn đầu tiên tới bot sinh pairing code, duyệt trong sandbox: openclaw pairing approve telegram <CODE>.
Remote web UI qua SSH tunnel: openshell forward start 18789 <name> --background.

Hạn chế & giá

Stack free, nhưng DGX Spark (GB10) là phần cứng thương mại NVIDIA bán riêng. RTX PRO workstation + GeForce RTX cũng chạy được các model nhỏ (Nano 4B).
Latency 30–90s — không dành cho chat nhanh. OK cho task agentic dài.
Early preview — tính năng còn vá, policy controls đang mở rộng.
Download 87 GB lần đầu — cần băng thông và đĩa.
Phải chấp nhận Ubuntu 24.04 LTS + Docker 28.x.

Sắp tới

NVIDIA đang đẩy thêm model (vision-language), mở rộng connector (Slack, Discord, email), và cho phép policy granular hơn trong OpenShell. Repo chính tại github.com/NVIDIA/NemoClaw, playbook trên build.nvidia.com/spark/nemoclaw.

Via: NVIDIA Developer Blog, NVIDIA Newsroom, NVIDIA Blogs (GTC 2026).