- Tại CES 2026, Jensen Huang công bố Vera Rubin NVL72 chính thức vào sản xuất hàng loạt — 72 GPU Rubin, 288GB HBM4 mỗi GPU, 260 TB/s NVLink, nhanh gấp 5 lần Blackwell và giảm chi phí token xuống 1/10.
- Đây là lần đầu NVIDIA co-design cả CPU, GPU, mạng, lưu trữ và bảo mật thành một hệ thống duy nhất.
TL;DR
Tại CES 2026, Jensen Huang công bố Vera Rubin NVL72 — nền tảng AI thế hệ kế tiếp của NVIDIA — chính thức vào full production. Một rack 72 GPU Rubin thay thế công việc của cả phòng siêu máy tính trước đây: 50 PFLOPS NVFP4 inference mỗi GPU, 260 TB/s NVLink toàn hệ thống, nhanh gấp 5 lần Blackwell và rẻ hơn 10 lần trên mỗi token inference. Microsoft Azure đã có rack đầu tiên chạy. Hàng sẵn nửa cuối 2026, giá ~8,8 triệu USD/rack.
What's new
Rubin không phải là một GPU mới đơn thuần. Đây là lần đầu NVIDIA extreme co-design cả sáu–bảy loại chip thành một hệ thống: Rubin GPU, Vera CPU, NVLink 6, ConnectX-9, BlueField-4 DPU, Spectrum-X Ethernet Photonics và chip Groq LP30 vừa được mua lại. Jensen gọi đây là "không còn stacking cards nữa — cả data center trở thành một AI supercomputer duy nhất".
Điểm gây sốc về hình thức: NVL72 rack hoàn toàn fanless, tubeless, cableless, làm mát 100% bằng nước nóng 45°C. Thời gian cài đặt từ 2 tiếng (Blackwell) xuống còn 5 phút.
Why it matters
Với Rubin, NVIDIA không bán GPU nữa — họ bán AI factory. Vera CPU được thiết kế riêng cho agentic AI: truy cập KV cache, dữ liệu có cấu trúc và phi cấu trúc, xử lý công cụ. Khi mô hình agent cần đọc/ghi bộ nhớ liên tục, pipeline CPU→GPU→storage trở thành bottleneck — và Rubin thiết kế lại toàn bộ đường đi đó.
Hệ quả kinh tế: chi phí token inference giảm còn 1/10. Với cùng latency, enterprise có thể deploy mô hình long-context triệu token mà không phá sản. Jensen tuyên bố huấn luyện mô hình trillion-parameter từ nay là "vấn đề kỹ thuật, không còn là vấn đề tiền".
Technical facts
| Thành phần | Thông số |
|---|---|
| Rubin GPU — NVFP4 inference | 50 PFLOPS |
| Rubin GPU — NVFP4 training | 35 PFLOPS |
| HBM4 per GPU | 288 GB @ 22 TB/s |
| NVLink 6 per GPU | 3.6 TB/s |
| Vera CPU | 88 Olympus Arm cores → 176 threads (SMT), 128GB GDDR7 |
| Compute tray | 2 CPU + 4 GPU + 1 DPU + 8 NIC → 100 PFLOPS |
| NVL72 rack | 72 GPU, 260 TB/s all-to-all NVLink, 100% liquid cooled |
| Full Vera Rubin system | 5 racks, 7 chip types → 3.6 exaflops |
| Install time | 5 phút (Blackwell: 2 giờ) |
260 TB/s — nghĩa là bandwidth nội bộ của một rack vượt toàn bộ xương sống Internet công cộng. 72 GPU hoạt động như một "super GPU" duy nhất.
Comparison — Rubin vs Blackwell
| Chỉ số | Blackwell | Rubin | Chênh lệch |
|---|---|---|---|
| Inference NVFP4 | 10 PFLOPS | 50 PFLOPS | 5× |
| Training NVFP4 | 10 PFLOPS | 35 PFLOPS | 3.5× |
| HBM bandwidth | ~8 TB/s | 22 TB/s | 2.8× |
| Token inference cost | baseline | 1/10 | 10× rẻ hơn |
| GPU cần cho MoE ultra-large | baseline | 1/4 | -75% |
| Transistor count | baseline | 1.6× | nhỏ |
Điểm ấn tượng nhất: transistor chỉ tăng 1.6× nhưng performance tăng 5×. Magic đến từ tensor core NVFP4 thế hệ 3 — tự phân tích đặc tính từng lớp Transformer và dynamic điều chỉnh precision + đường tính toán.
Use cases
- Agentic AI production: Vera CPU xử lý tool-use, memory, data pipeline — GPU không phải chờ data nữa.
- Million-token long context: chi phí token rẻ 10× khiến chatbot nhớ cả codebase, cả cuốn sách trở thành default thay vì luxury.
- Trillion-parameter MoE training: cluster nhỏ hơn 4×, nghĩa là nhiều lab nhỏ cũng chạm được quy mô trước đây chỉ OpenAI/Google mơ tới.
- Enterprise deployment: Microsoft Azure đã có rack đầu tiên — AWS/GCP/Oracle được dự kiến theo sau trong 2026.
Limitations & pricing
- Giá: ~8,8 triệu USD mỗi rack NVL72. Server maker margin bị ép mỏng vì NVIDIA nắm phần lớn giá trị.
- Hạ tầng: yêu cầu liquid cooling 45°C — data center cũ phải retrofit đáng kể.
- Token pricing tiering: NVIDIA vẽ tầm nhìn 5 tier giá từ free → 3 USD → 6 USD → 45 USD → 150 USD/triệu token cho ultra-premium latency. Nghĩa là không phải mọi workload đều hưởng giá rẻ — premium vẫn sẽ đắt.
- Availability: H2 2026 mới ship rộng. Hiện chỉ partner hyperscaler có hàng.
What's next
Sau NVL72 là Rubin Ultra NVL288 — 288 GPU, 144 CPU mỗi system. Jensen cũng công bố NVIDIA đã acquire team Groq và tích hợp chip LP30 vào product line, ship Q3 2026 từ fab Samsung. Dự phóng $3–4 nghìn tỷ USD đầu tư AI infrastructure trong 5 năm tới.
Tin rõ nhất: cuộc đua compute đã bước vào giai đoạn mới. Không còn đua TFLOPS trên slide — đua rack-scale throughput, tokens per second per dollar, và thời gian từ đơn hàng tới production. Vera Rubin đặt lại thanh ngang này.
Nguồn: NVIDIA Blog, Tom's Hardware, Techloy, 36kr.


