NVIDIA Vera Rubin NVL72: Jensen vừa nhét cả phòng siêu máy tính AI vào một rack

TL;DR

Tại CES 2026, Jensen Huang công bố Vera Rubin NVL72 — nền tảng AI thế hệ kế tiếp của NVIDIA — chính thức vào full production. Một rack 72 GPU Rubin thay thế công việc của cả phòng siêu máy tính trước đây: 50 PFLOPS NVFP4 inference mỗi GPU, 260 TB/s NVLink toàn hệ thống, nhanh gấp 5 lần Blackwell và rẻ hơn 10 lần trên mỗi token inference. Microsoft Azure đã có rack đầu tiên chạy. Hàng sẵn nửa cuối 2026, giá ~8,8 triệu USD/rack.

What's new

Rubin không phải là một GPU mới đơn thuần. Đây là lần đầu NVIDIA extreme co-design cả sáu–bảy loại chip thành một hệ thống: Rubin GPU, Vera CPU, NVLink 6, ConnectX-9, BlueField-4 DPU, Spectrum-X Ethernet Photonics và chip Groq LP30 vừa được mua lại. Jensen gọi đây là "không còn stacking cards nữa — cả data center trở thành một AI supercomputer duy nhất".

Điểm gây sốc về hình thức: NVL72 rack hoàn toàn fanless, tubeless, cableless, làm mát 100% bằng nước nóng 45°C. Thời gian cài đặt từ 2 tiếng (Blackwell) xuống còn 5 phút.

Why it matters

Với Rubin, NVIDIA không bán GPU nữa — họ bán AI factory. Vera CPU được thiết kế riêng cho agentic AI: truy cập KV cache, dữ liệu có cấu trúc và phi cấu trúc, xử lý công cụ. Khi mô hình agent cần đọc/ghi bộ nhớ liên tục, pipeline CPU→GPU→storage trở thành bottleneck — và Rubin thiết kế lại toàn bộ đường đi đó.

Hệ quả kinh tế: chi phí token inference giảm còn 1/10. Với cùng latency, enterprise có thể deploy mô hình long-context triệu token mà không phá sản. Jensen tuyên bố huấn luyện mô hình trillion-parameter từ nay là "vấn đề kỹ thuật, không còn là vấn đề tiền".

Technical facts

Thành phần	Thông số
Rubin GPU — NVFP4 inference	50 PFLOPS
Rubin GPU — NVFP4 training	35 PFLOPS
HBM4 per GPU	288 GB @ 22 TB/s
NVLink 6 per GPU	3.6 TB/s
Vera CPU	88 Olympus Arm cores → 176 threads (SMT), 128GB GDDR7
Compute tray	2 CPU + 4 GPU + 1 DPU + 8 NIC → 100 PFLOPS
NVL72 rack	72 GPU, 260 TB/s all-to-all NVLink, 100% liquid cooled
Full Vera Rubin system	5 racks, 7 chip types → 3.6 exaflops
Install time	5 phút (Blackwell: 2 giờ)

260 TB/s — nghĩa là bandwidth nội bộ của một rack vượt toàn bộ xương sống Internet công cộng. 72 GPU hoạt động như một "super GPU" duy nhất.

Comparison — Rubin vs Blackwell

Chỉ số	Blackwell	Rubin	Chênh lệch
Inference NVFP4	10 PFLOPS	50 PFLOPS	5×
Training NVFP4	10 PFLOPS	35 PFLOPS	3.5×
HBM bandwidth	~8 TB/s	22 TB/s	2.8×
Token inference cost	baseline	1/10	10× rẻ hơn
GPU cần cho MoE ultra-large	baseline	1/4	-75%
Transistor count	baseline	1.6×	nhỏ

Điểm ấn tượng nhất: transistor chỉ tăng 1.6× nhưng performance tăng 5×. Magic đến từ tensor core NVFP4 thế hệ 3 — tự phân tích đặc tính từng lớp Transformer và dynamic điều chỉnh precision + đường tính toán.

Use cases

Agentic AI production: Vera CPU xử lý tool-use, memory, data pipeline — GPU không phải chờ data nữa.
Million-token long context: chi phí token rẻ 10× khiến chatbot nhớ cả codebase, cả cuốn sách trở thành default thay vì luxury.
Trillion-parameter MoE training: cluster nhỏ hơn 4×, nghĩa là nhiều lab nhỏ cũng chạm được quy mô trước đây chỉ OpenAI/Google mơ tới.
Enterprise deployment: Microsoft Azure đã có rack đầu tiên — AWS/GCP/Oracle được dự kiến theo sau trong 2026.

Limitations & pricing

Giá: ~8,8 triệu USD mỗi rack NVL72. Server maker margin bị ép mỏng vì NVIDIA nắm phần lớn giá trị.
Hạ tầng: yêu cầu liquid cooling 45°C — data center cũ phải retrofit đáng kể.
Token pricing tiering: NVIDIA vẽ tầm nhìn 5 tier giá từ free → 3 USD → 6 USD → 45 USD → 150 USD/triệu token cho ultra-premium latency. Nghĩa là không phải mọi workload đều hưởng giá rẻ — premium vẫn sẽ đắt.
Availability: H2 2026 mới ship rộng. Hiện chỉ partner hyperscaler có hàng.

What's next

Sau NVL72 là Rubin Ultra NVL288 — 288 GPU, 144 CPU mỗi system. Jensen cũng công bố NVIDIA đã acquire team Groq và tích hợp chip LP30 vào product line, ship Q3 2026 từ fab Samsung. Dự phóng $3–4 nghìn tỷ USD đầu tư AI infrastructure trong 5 năm tới.

Tin rõ nhất: cuộc đua compute đã bước vào giai đoạn mới. Không còn đua TFLOPS trên slide — đua rack-scale throughput, tokens per second per dollar, và thời gian từ đơn hàng tới production. Vera Rubin đặt lại thanh ngang này.

Nguồn: NVIDIA Blog, Tom's Hardware, Techloy, 36kr.

NVIDIA Vera Rubin NVL72: Jensen vừa nhét cả phòng siêu máy tính AI vào một rack

TL;DR

What's new

Why it matters

Technical facts

Comparison — Rubin vs Blackwell

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

DeepSeek V4 chạy mượt trên Huawei Ascend 950: Hào CUDA của Nvidia chính thức nứt

GPT-5.5 ra mắt: OpenAI đẩy tham vọng 'super app' với agent tự chạy việc thay bạn

NVIDIA Asset Harvester: Biến video lái xe thành 3D asset trong vài giây

Google ra mắt TPU 8t và TPU 8i: chia đôi chip AI cho training và inference

OpenShell v0.0.34: Cập nhật policy sandbox live, không cần restart runtime