OpenAI Open-Source Giao Thức Mạng MRC - Xương Sống Của Stargate Và ChatGPT

TL;DR

OpenAI vừa open-source MRC (Multipath Reliable Connection) - giao thức mạng đã âm thầm chạy dưới nắp các supercomputer GB200 tại Stargate và Microsoft Fairwater, huấn luyện ChatGPT lẫn Codex. Đây là kết quả của 2 năm hợp tác với AMD, Broadcom, Intel, Microsoft và NVIDIA, đóng góp vào Open Compute Project (OCP) để toàn ngành có thể dùng miễn phí.

Câu hỏi cốt lõi: tại sao OpenAI phải tự xây giao thức mạng riêng thay vì dùng thứ sẵn có? Câu trả lời ngắn gọn - khi bạn vận hành cụm trăm ngàn GPU, mạng chính là thứ giết chết hiệu suất.

Nút thắt cổ chai không ai ngờ tới

Khi huấn luyện mô hình lớn, hàng chục nghìn đến hàng trăm nghìn GPU phải đồng bộ liên tục. Một bước training có thể tạo ra hàng triệu lần truyền dữ liệu - chỉ cần một lần bị delay, toàn bộ GPU phải ngồi chờ. Cluster càng to, jitter và link failure càng thường xuyên.

Với mạng truyền thống:

Link down = cả training job có thể sập, phải rollback về checkpoint cũ và chạy lại
Switch tính lại route (BGP) mất vài giây đến vài chục giây - trong thế giới GPU, đó là thảm họa
Mỗi luồng dữ liệu đi theo một đường duy nhất - nếu đường đó tắc, không có lối thoát

Khi OpenAI bắt đầu xây Stargate - cụm hạ tầng tính toán khổng lồ mục tiêu 10GW vào 2029 - nút thắt đầu tiên họ đụng phải không phải chip, không phải điện. Mà là mạng.

MRC hoạt động như thế nào

OpenAI MRC - kiến trúc mạng đa đường cho siêu máy tính AI

MRC giải quyết vấn đề từ gốc bằng 4 cơ chế chính:

1. Packet spraying - bắn gói dữ liệu song song: Thay vì gửi theo một đường, MRC phân mảnh data packet và bắn đồng thời qua hàng trăm đường mạng. Đích nhận gom lại theo địa chỉ bộ nhớ ảo. Mất đi yêu cầu in-order delivery - thứ đã trói chân RoCEv2 vào single-path từ đầu.

2. Bypass sự cố trong microsecond: Link hỏng? MRC phát hiện và reroute trong vài RTT (tức là microsecond), không cần switch tính lại routing table. BGP bị loại bỏ hoàn toàn.

3. SRv6 source routing - sender chỉ đường: Thay vì để switch tự quyết định route, sender ghi thẳng đường đi vào header của từng gói. Switch trở thành "dumb forwarder" - chỉ chuyển tiếp, không cần nghĩ. Bảng forwarding trong switch nhỏ và tính tĩnh từ lúc khởi tạo topology - không bao giờ thay đổi khi có sự cố.

4. Packet trimming thay PFC: MRC bỏ hẳn yêu cầu mạng lossless. Thay vì dùng Priority Flow Control (PFC) gây back-pressure thô và không dự đoán được, switch tắc sẽ gửi header của gói bị drop về cho receiver. Receiver biết gói nào mất, gửi NACK yêu cầu retransmit chính xác. 1RTT loss detection - cực kỳ nhanh.

Số liệu thực chiến

Chỉ số	Truyền thống	MRC
Thời gian phục hồi khi link hỏng	Vài giây đến vài chục giây (BGP)	Vài microsecond
Số tầng switch để kết nối 131.000 GPU	3-4 tầng	2 tầng
Số đường đồng thời (Broadcom Thor Ultra)	1 đường/luồng	Tối đa 128 đường
Tỉ lệ congestion chịu được	Giới hạn theo PFC	15:1 many-to-one mọi port (Tomahawk 5)
Số port switch @ 800Gb/s	64 port	512 port @ 100Gb/s (multi-plane)

Ví dụ thực tế ấn tượng nhất: trong quá trình train frontier model gần nhất cho ChatGPT và Codex, đội infra đã restart 4 core switch đang chạy mà không cần báo cho đội training. Mỗi phút có nhiều lần link jitter. Không có impact nào đo được trên training job. Trước đây, một sự cố như thế đủ để làm sập cả task.

MRC vs RoCEv2 vs InfiniBand

RoCEv2 - giao thức đang thống trị AI networking - vốn có gốc rễ từ storage networking. Nó yêu cầu in-order delivery, buộc dùng single path mỗi kết nối, và dùng PFC để xử lý tắc nghẽn - coarse, unpredictable, không phù hợp với AI cluster quy mô lớn.

InfiniBand thì tốt hơn về latency nhưng là hệ sinh thái độc quyền. Dữ liệu từ Dell'Oro Group cho thấy: năm 2025, doanh số Ethernet cho AI back-end network đã vượt InfiniBand. MRC mang đến thứ tốt nhất của cả hai: performance của InfiniBand kết hợp với độ linh hoạt và chi phí hợp lý của Ethernet tiêu chuẩn IPv6 mở.

Lợi ích kiến trúc rõ nhất: một interface 800Gb/s được tách thành 8 link 100Gb/s kết nối 8 switch khác nhau. Switch Tomahawk 5 với 512 port @ 100G thay vì 64 port @ 800G - radix tăng 8 lần. Kết quả: mạng 2 tầng kết nối 131.000 GPU, tiết kiệm điện, chi phí, và giảm điểm hỏng hóc toàn bộ.

Đã deploy ở đâu

MRC không còn là whitepaper. Tính đến thời điểm công bố:

Stargate, Abilene, Texas (OpenAI + Oracle) - toàn bộ GB200 Blackwell supercomputer
Microsoft Fairwater data center - một trong những AI factory lớn nhất thế giới
Chạy native trên NVIDIA Spectrum-X Ethernet switches và Broadcom Thor Ultra 800Gbps NICs
AMD đã deploy MRC trên Pensando Pollara 400 AI NIC và test cluster với cloud provider lớn
Broadcom Tomahawk 5 đã được hyperscaler deploy at scale từ 2 năm trước khi công bố

Nhiều mô hình của OpenAI đã được train qua MRC - bao gồm những mô hình phục vụ ChatGPT và Codex hiện tại.

Open-source và tiếp theo

MRC được phát hành dưới OCP open license - hoàn toàn miễn phí cho toàn ngành. Để hưởng lợi đầy đủ, cần hardware tương thích: Broadcom Thor Ultra NIC, Tomahawk 5/6 switch; NVIDIA Spectrum-X; AMD Pensando Pollara/Vulcano NIC. Không phải thứ dành cho SMB - đây là công nghệ cho hyperscaler và AI factory quy mô lớn.

Roadmap tiếp theo:

Broadcom Tomahawk 6 (512 port @ 200G) đang ramp-up
AMD Pensando Vulcano 800G AI NIC - thế hệ tiếp theo với MRC native
Stargate mục tiêu 10GW AI compute vào 2029 (đã deploy 3GW chỉ trong 3 tháng)
MRC sẽ co-evolve cùng Ultra Ethernet Transport (UET) - spec sạch hơn, phạm vi rộng hơn

Nguồn: OpenAI Blog, Broadcom, AMD, NVIDIA.