TL;DR
NVIDIA vừa công bố NemoClaw (16/03/2026) — reference stack open-source dựng OpenClaw, một gateway tự host kết nối Telegram/Slack với AI agent chạy hoàn toàn local. Chạy Nemotron 3 Super 120B (12B active params, 85.6% PinchBench) trên DGX Spark, sandbox bằng OpenShell, cài một câu lệnh bash. Setup 20–30 phút, tải model ~87 GB, latency 30–90s mỗi câu trả lời. Giá: free, chỉ cần phần cứng.
Có gì mới
NemoClaw là lớp điều phối bọc quanh OpenClaw — agent coding framework của Peter Steinberger. Mục tiêu: cho phép bất kỳ ai chạy một AI assistant 24/7, toàn local, không đụng tới cloud trừ khi bạn cho phép.
- NemoClaw: installer + lifecycle management + blueprint cho full stack.
- OpenShell: runtime sandbox — network namespace riêng, chặn request ra ngoài mặc định, UI real-time để approve/deny.
- OpenClaw: gateway kết nối messaging platform với agent trong sandbox.
- Privacy Router: chuyển query sang cloud model khi cần, nhưng tôn trọng policy bạn đặt.
"OpenClaw is the operating system for personal AI. This is the moment the industry has been waiting for." — Jensen Huang, CEO NVIDIA
Vì sao quan trọng
Chi phí token cloud đang trở thành rào cản lớn cho agent 24/7. Một agent chạy nền cả ngày gọi 1000+ request/ngày có thể tốn vài chục đến vài trăm USD/tháng chỉ riêng tiền API. NemoClaw giải bài toán "token tax" bằng cách đẩy inference về máy của bạn — không giới hạn request, không rate limit, không data rò rỉ.
Quan trọng hơn: với sandbox OpenShell, agent có thể chạy shell command, đọc file, gọi tool — mà không đụng được host filesystem hay network gốc. Đây là primitive còn thiếu của hầu hết agent framework hiện tại.
Thông số kỹ thuật
| Component | Spec |
|---|---|
| Nemotron 3 Super | 120B params, 12B active (MoE), 85.6% PinchBench |
| Nemotron 3 Nano | 4B params, cho GeForce RTX, tool-use mạnh |
| Mistral Small 4 | 119B total, 6B active — chat + code + agent |
| Qwen 3.5 | 27B / 9B / 4B, vision native, 262K context window |
| Model size (disk) | ~86 GB (Nemotron 3 Super 120B cached) |
| Download | ~87 GB lần đầu |
| Inference latency | 30–90 giây/response (120B trên DGX Spark) |
| Setup time | 20–30 phút active + 15–30 phút tải model |
| OS target | Ubuntu 24.04 LTS + Docker 28.x + NVIDIA container runtime |
So với cloud agent
| Tiêu chí | NemoClaw + DGX Spark | Cloud agent (Claude / ChatGPT) |
|---|---|---|
| Token cost | $0 | $X/tháng, scale theo request |
| Privacy | Data không rời máy | Gửi lên cloud provider |
| Latency | 30–90s (120B local) | 2–10s |
| Uptime | 24/7, không rate limit | Rate limit + outage |
| Sandbox | OpenShell network namespace | Tuỳ provider |
Trade-off rõ: đổi latency lấy privacy + chi phí biến mất. Hợp với agent chạy nền (review PR, monitor repo, tổng hợp email) hơn là chat real-time.
Use case thực tế
- Personal assistant qua Telegram: hỏi bot từ điện thoại, câu trả lời đến từ DGX Spark ở nhà.
- Coding agent always-on: review PR, refactor, monitor repo trong lúc bạn ngủ — chi phí không đổi dù chạy 1 câu hay 10.000 câu.
- Agent cho data nhạy cảm: legal, medical, tài chính — nơi dữ liệu không được rời premises.
- Orchestrator automation nhà: agent chạy shell trong sandbox, không với tay ra host.
- Research assistant: đọc note/email/file cá nhân mà không upload đi đâu.
Cách triển khai nhanh
Flow từ blog NVIDIA:
- DGX Spark + Ubuntu 24.04 LTS + Docker 28.x + NVIDIA container runtime.
- Cài Ollama, set
OLLAMA_HOST=0.0.0.0để sandbox OpenShell (network namespace riêng) gọi được. - Pull Nemotron 3 Super (~87 GB).
- Chạy NemoClaw installer → onboarding wizard.
- Tạo Telegram bot qua @BotFather, nhập token.
- Tin nhắn đầu tiên tới bot sinh pairing code, duyệt trong sandbox:
openclaw pairing approve telegram <CODE>. - Remote web UI qua SSH tunnel:
openshell forward start 18789 <name> --background.
Hạn chế & giá
- Stack free, nhưng DGX Spark (GB10) là phần cứng thương mại NVIDIA bán riêng. RTX PRO workstation + GeForce RTX cũng chạy được các model nhỏ (Nano 4B).
- Latency 30–90s — không dành cho chat nhanh. OK cho task agentic dài.
- Early preview — tính năng còn vá, policy controls đang mở rộng.
- Download 87 GB lần đầu — cần băng thông và đĩa.
- Phải chấp nhận Ubuntu 24.04 LTS + Docker 28.x.
Sắp tới
NVIDIA đang đẩy thêm model (vision-language), mở rộng connector (Slack, Discord, email), và cho phép policy granular hơn trong OpenShell. Repo chính tại github.com/NVIDIA/NemoClaw, playbook trên build.nvidia.com/spark/nemoclaw.
Nguồn: NVIDIA Developer Blog, NVIDIA Newsroom, NVIDIA Blogs (GTC 2026).