NVIDIA Dynamo 1.0: Hệ điều hành cho AI factory, scale LLM inference đến hàng nghìn GPU

TL;DR

NVIDIA Dynamo là framework inference phân tán datacenter-scale mã nguồn mở, vừa đạt GA 1.0 ngày 16/03/2026 — đúng 1 năm sau khi unveiled tại GTC 2025. Là kế nhiệm chính thức của Triton Inference Server, Dynamo định vị mình như "hệ điều hành cho AI factory": nó không thay thế vLLM, SGLang hay TensorRT-LLM, mà là lớp orchestration phía trên biến cluster GPU thành một hệ inference đa node phối hợp. Bốn trụ chính: disaggregated prefill/decode, KV-aware routing, dynamic GPU scheduling theo SLA, và tiered KV cache offload qua thư viện NIXL. Kết quả benchmark độc lập: throughput Blackwell tăng tới 7x, DeepSeek-R1 trên GB200 NVL72 đạt 30x token/GPU, và MoE workload trên Blackwell Ultra bứt phá 50x với chi phí thấp hơn 35x.

Có gì mới

Tháng 3/2025 tại GTC, NVIDIA chính thức mở mã nguồn Dynamo. Một năm sau, ngày 16/03/2026, công ty công bố Dynamo 1.0 production-grade với mức độ adoption "toàn cầu rộng khắp" — gồm AWS, Microsoft Azure, Google Cloud, OCI, Alibaba Cloud, CoreWeave, Together AI, Nebius — cùng hàng loạt khách hàng AI-native như Cursor, Perplexity và doanh nghiệp lớn như ByteDance, Meituan, PayPal, Pinterest.

Codebase đặt tại ai-dynamo/dynamo: 6.6k stars, 1k forks, 278 contributors, viết chủ yếu bằng Rust (55.9%) cho hot path và Python (30%) cho extensibility. Hỗ trợ deploy qua container (`dynamo:1.0.1`), PyPI, hoặc Kubernetes manifest với Dynamo Platform.

Vì sao đáng quan tâm

Phần lớn inference engine hiện tại (vLLM, SGLang, TRT-LLM) tối ưu cho 1 GPU hoặc 1 node. Khi bạn cần serve LLM 671B trên hàng trăm GPU, hoặc chạy reasoning workload với output dài hàng vạn token, bài toán đột ngột chuyển từ "tối ưu kernel" sang "điều phối tài nguyên cluster". Đó là khoảng trống Dynamo lấp:

Reasoning model bùng nổ. Mỗi prompt giờ tạo ra hàng nghìn "thinking token" trước khi ra câu trả lời cuối. Đẩy throughput inference lên = đẩy revenue/GPU lên.
Agentic workload phức tạp. Một agent gọi nhiều model + tool, KV cache phình ra vượt HBM. Cần tier xuống RAM/SSD/object storage một cách thông minh.
GPU đắt & hiếm. Mọi % utilization tiết kiệm được dịch trực tiếp ra TCO. Dynamo Planner đo được ở Alibaba APSARA 2025: SLA breach giảm 80%, TCO giảm 5%.

Bốn trụ kỹ thuật

1. Disaggregated Prefill/Decode

LLM inference có 2 phase với đặc tính trái ngược: prefill (xử lý input → first token) là compute-bound, song song được; decode (sinh token tiếp theo) là memory-bound, autoregressive. Đặt cùng GPU = tranh chấp tài nguyên. Dynamo tách 2 phase ra 2 pool GPU riêng, mỗi pool chỉnh tensor parallelism khác nhau, scale độc lập theo demand. Cho RAG (input dài, output ngắn) hay reasoning (input ngắn, output dài), tỉ lệ pool tự khớp với workload thật.

2. KV-Aware Smart Router

Smart Router track KV cache block đang sống ở từng GPU trong cluster qua Radix Tree. Khi request mới đến, nó tính overlap score với các cache block đang có, rồi route đến worker giữ context khớp nhất — đồng thời cân bằng load. Kết quả: prefill recomputation gần như biến mất, TTFT trên Qwen3-Coder 480B giảm 2x. Đặc biệt mạnh cho agent multi-turn và system-prompt-heavy workload.

3. Dynamo Planner — SLA-driven autoscaler

Planner monitor liên tục: request rate, sequence length, queue wait time, GPU capacity. Quyết định realtime: serve disaggregated hay aggregated? Cần thêm prefill worker hay decode worker? Tất cả tham chiếu SLA bạn đặt (TTFT, Inter-Token Latency). Không downtime, không over-provision.

4. KV Block Manager + NIXL

KVBM offload KV cache lạnh từ HBM → CPU RAM → local SSD → S3/Azure Blob theo policy LRU-style. NIXL (NVIDIA Inference Transfer Library) là backbone vận chuyển: API async thống nhất, tự chọn backend tối ưu (NVLink, GPUDirect Storage, UCX, EFA, S3) và transport (InfiniBand, RoCE, Ethernet). Kết quả: lưu được hàng petabyte KV cache với chi phí 1 phần nhỏ so với để trong HBM. Tích hợp Dell PowerScale qua NIXL cho TTFT nhanh hơn 19x.

Benchmarks

Workload	Hardware	Improvement
DeepSeek-R1 671B	GB200 NVL72	30x token/GPU
DeepSeek-R1 (InferenceXv2)	GB300 NVL72	750x throughput
Llama 70B	NVIDIA Hopper	2x throughput
MoE model	GB200 NVL72 vs B200	7x throughput
Reasoning serving	GB200 NVL72	15x compounding
Agentic AI	Blackwell Ultra	50x throughput, 35x lower cost
Mistral Large 3 / Kimi K2	GB200	10x speedup
DeepSeek-V3 cold-start	H200 (ModelExpress)	7x faster

So sánh với Triton & tự build

Dynamo là kế nhiệm chính thức của Triton Inference Server. Khác biệt cốt lõi: Triton tối ưu cho serve nhiều model trên 1–vài GPU; Dynamo tối ưu cho serve 1 model cực lớn trải hàng trăm/nghìn GPU. Triton vẫn xuất sắc cho computer vision và mixed model serving; Dynamo dành cho reasoning LLM datacenter-scale.

So với tự build orchestration trên vLLM thuần: bạn sẽ phải tự code KV-aware router, prefix tree, autoscaler, weight streaming, fault tolerance — chính là những thứ Dynamo có sẵn và đã chạy production tại Perplexity, Cursor.

Use cases thực tế

Reasoning model serving — output dài, disaggregation tỏa sáng.
AI agent — KV cache khủng từ multi-turn + tool use, cần tier offload.
Code generation — refinement loop tận dụng KV reuse cao.
RAG pipeline — input dài + output ngắn, tách prefill là vàng.
Multimodal & video gen — Dynamo 1.0 hỗ trợ disaggregated encode/prefill/decode, tích hợp FastVideo + SGLang Diffusion.

Hạn chế & pricing

License: Apache-style, hoàn toàn miễn phí.
Hardware: chỉ NVIDIA GPU (Hopper H100/H200, Blackwell B200/GB200/GB300). Phụ thuộc NVLink, NVSwitch, NVIDIA Quantum/Spectrum switch.
Không cần Dynamo nếu: bạn chạy 1 model trên 1 GPU — vLLM/SGLang/TRT-LLM đơn lẻ là đủ.
Prerequisites (EKS deploy): Python 3.10+, Docker, kubectl, Helm, Terraform; KV-Aware Routing cần NATS với JetStream enabled.
Enterprise option: NVIDIA NIM microservices + NVIDIA AI Enterprise — SLA-grade support, security, stability có phí.

Dynamo 1.0 đã GA và có sẵn ngay hôm nay. Pre-built recipe có cho Llama-3-70B (vLLM aggregated), DeepSeek-R1 (SGLang disaggregated), Qwen3-32B-FP8 (TRT-LLM aggregated). Roadmap repo cho thấy NVIDIA tiếp tục mở rộng KVBM tier (S3/Azure đã có), tích hợp Grove K8s sâu hơn cho NVL72, và thêm storage partner. Với agentic AI bùng nổ và reasoning model trở thành mặc định, lớp orchestration distributed inference sẽ thành layer chiến lược — và Dynamo đang chiếm vị trí đó.

Nguồn: NVIDIA Technical Blog, NVIDIA Newsroom, GitHub ai-dynamo/dynamo, AWS ML Blog.

NVIDIA Dynamo 1.0: Hệ điều hành cho AI factory, scale LLM inference đến hàng nghìn GPU

TL;DR

Có gì mới

Vì sao đáng quan tâm

Bốn trụ kỹ thuật

1. Disaggregated Prefill/Decode

2. KV-Aware Smart Router

3. Dynamo Planner — SLA-driven autoscaler

4. KV Block Manager + NIXL

Benchmarks

So sánh với Triton & tự build

Use cases thực tế

Hạn chế & pricing

Tiếp theo

Tiếp tục lướt

Qwen3.6 35B chạy 164 tok/s trên creative writing với DFlash: kỷ lục mới của open-source MoE

DeepSeek V4: 1M context mà agent thật sự dùng được, KV cache chỉ còn 10% V3.2

DeepSeek V4 giảm 10 lần KV cache ở 1M context — và giải luôn cơn khát HBM

"Constant GPU memory" trong LLM inference: bạn không làm bài toán biến mất, chỉ dời nó sang CPU

IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget