TL;DR

Tại CES 2026, Jensen Huang công bố Vera Rubin NVL72 — nền tảng AI thế hệ kế tiếp của NVIDIA — chính thức vào full production. Một rack 72 GPU Rubin thay thế công việc của cả phòng siêu máy tính trước đây: 50 PFLOPS NVFP4 inference mỗi GPU, 260 TB/s NVLink toàn hệ thống, nhanh gấp 5 lần Blackwell và rẻ hơn 10 lần trên mỗi token inference. Microsoft Azure đã có rack đầu tiên chạy. Hàng sẵn nửa cuối 2026, giá ~8,8 triệu USD/rack.

What's new

Rubin không phải là một GPU mới đơn thuần. Đây là lần đầu NVIDIA extreme co-design cả sáu–bảy loại chip thành một hệ thống: Rubin GPU, Vera CPU, NVLink 6, ConnectX-9, BlueField-4 DPU, Spectrum-X Ethernet Photonics và chip Groq LP30 vừa được mua lại. Jensen gọi đây là "không còn stacking cards nữa — cả data center trở thành một AI supercomputer duy nhất".

Điểm gây sốc về hình thức: NVL72 rack hoàn toàn fanless, tubeless, cableless, làm mát 100% bằng nước nóng 45°C. Thời gian cài đặt từ 2 tiếng (Blackwell) xuống còn 5 phút.

Why it matters

Với Rubin, NVIDIA không bán GPU nữa — họ bán AI factory. Vera CPU được thiết kế riêng cho agentic AI: truy cập KV cache, dữ liệu có cấu trúc và phi cấu trúc, xử lý công cụ. Khi mô hình agent cần đọc/ghi bộ nhớ liên tục, pipeline CPU→GPU→storage trở thành bottleneck — và Rubin thiết kế lại toàn bộ đường đi đó.

Hệ quả kinh tế: chi phí token inference giảm còn 1/10. Với cùng latency, enterprise có thể deploy mô hình long-context triệu token mà không phá sản. Jensen tuyên bố huấn luyện mô hình trillion-parameter từ nay là "vấn đề kỹ thuật, không còn là vấn đề tiền".

Technical facts

Thành phầnThông số
Rubin GPU — NVFP4 inference50 PFLOPS
Rubin GPU — NVFP4 training35 PFLOPS
HBM4 per GPU288 GB @ 22 TB/s
NVLink 6 per GPU3.6 TB/s
Vera CPU88 Olympus Arm cores → 176 threads (SMT), 128GB GDDR7
Compute tray2 CPU + 4 GPU + 1 DPU + 8 NIC → 100 PFLOPS
NVL72 rack72 GPU, 260 TB/s all-to-all NVLink, 100% liquid cooled
Full Vera Rubin system5 racks, 7 chip types → 3.6 exaflops
Install time5 phút (Blackwell: 2 giờ)

260 TB/s — nghĩa là bandwidth nội bộ của một rack vượt toàn bộ xương sống Internet công cộng. 72 GPU hoạt động như một "super GPU" duy nhất.

Comparison — Rubin vs Blackwell

Chỉ sốBlackwellRubinChênh lệch
Inference NVFP410 PFLOPS50 PFLOPS
Training NVFP410 PFLOPS35 PFLOPS3.5×
HBM bandwidth~8 TB/s22 TB/s2.8×
Token inference costbaseline1/1010× rẻ hơn
GPU cần cho MoE ultra-largebaseline1/4-75%
Transistor countbaseline1.6×nhỏ

Điểm ấn tượng nhất: transistor chỉ tăng 1.6× nhưng performance tăng 5×. Magic đến từ tensor core NVFP4 thế hệ 3 — tự phân tích đặc tính từng lớp Transformer và dynamic điều chỉnh precision + đường tính toán.

Use cases

  • Agentic AI production: Vera CPU xử lý tool-use, memory, data pipeline — GPU không phải chờ data nữa.
  • Million-token long context: chi phí token rẻ 10× khiến chatbot nhớ cả codebase, cả cuốn sách trở thành default thay vì luxury.
  • Trillion-parameter MoE training: cluster nhỏ hơn 4×, nghĩa là nhiều lab nhỏ cũng chạm được quy mô trước đây chỉ OpenAI/Google mơ tới.
  • Enterprise deployment: Microsoft Azure đã có rack đầu tiên — AWS/GCP/Oracle được dự kiến theo sau trong 2026.

Limitations & pricing

  • Giá: ~8,8 triệu USD mỗi rack NVL72. Server maker margin bị ép mỏng vì NVIDIA nắm phần lớn giá trị.
  • Hạ tầng: yêu cầu liquid cooling 45°C — data center cũ phải retrofit đáng kể.
  • Token pricing tiering: NVIDIA vẽ tầm nhìn 5 tier giá từ free → 3 USD → 6 USD → 45 USD → 150 USD/triệu token cho ultra-premium latency. Nghĩa là không phải mọi workload đều hưởng giá rẻ — premium vẫn sẽ đắt.
  • Availability: H2 2026 mới ship rộng. Hiện chỉ partner hyperscaler có hàng.

What's next

Sau NVL72 là Rubin Ultra NVL288 — 288 GPU, 144 CPU mỗi system. Jensen cũng công bố NVIDIA đã acquire team Groq và tích hợp chip LP30 vào product line, ship Q3 2026 từ fab Samsung. Dự phóng $3–4 nghìn tỷ USD đầu tư AI infrastructure trong 5 năm tới.

Tin rõ nhất: cuộc đua compute đã bước vào giai đoạn mới. Không còn đua TFLOPS trên slide — đua rack-scale throughput, tokens per second per dollar, và thời gian từ đơn hàng tới production. Vera Rubin đặt lại thanh ngang này.

Nguồn: NVIDIA Blog, Tom's Hardware, Techloy, 36kr.