OpenAI ra mắt MRC - Giao thức mạng mới cho siêu máy tính AI

TL;DR

OpenAI vừa công bố MRC (Multipath Reliable Connection) - giao thức mạng mới cho siêu máy tính AI, được đồng phát triển bởi AMD, Broadcom, Intel, Microsoft và NVIDIA. MRC phun gói tin đồng thời qua hàng trăm đường dẫn, phục hồi sự cố trong vài chục micro-giây, và đã chạy thực tế trên các cụm lên tới 50.000 GPU để huấn luyện ChatGPT và Codex. Toàn bộ đặc tả được mở qua Open Compute Project - không độc quyền, không vendor lock-in.

Khi mạng trở thành nút thắt cổ chai

Hàng chục đến hàng trăm nghìn GPU phải chạy đồng bộ trong từng bước huấn luyện LLM. Mỗi lần giao tiếp mạng, tất cả phải hoàn thành trước khi tiếp tục - một GPU chậm kéo cả cụm đứng lại ("straggler effect"). Khi cluster lên tới 50K-100K GPU, xác suất xảy ra sự cố mạng tăng vũ bão.

Giao thức hiện tại, RoCEv2, ra đời hơn một thập kỷ trước trong bối cảnh storage networking. Nó yêu cầu gói tin đến đúng thứ tự, buộc mỗi kết nối đi một đường duy nhất. Kết quả: các luồng băng thông cao va nhau (flow collision) gây tắc nghẽn; cơ chế chống tắc (PFC - Priority Flow Control) lan rộng ảnh hưởng sang cả các luồng vô tội khác. Greg Steinbrecher, workload lead của OpenAI, mô tả đây là "failure amplifier" - một điều sai gây hiệu ứng dây chuyền, hàng nghìn GPU ngồi chờ.

OpenAI Podcast - Mark Handley và Greg Poynt thảo luận về MRC

MRC là gì

MRC (Multipath Reliable Connection) là giao thức mạng RDMA mới, mở rộng từ RoCEv2 nhưng về bản chất là một transport protocol hoàn toàn mới. Được phát triển trong 2 năm bởi liên minh OpenAI, AMD, Broadcom, Intel, Microsoft và NVIDIA, MRC giải quyết hai vấn đề cốt lõi của mạng AI cực lớn: tắc nghẽn và sự cố phần cứng.

MRC được released dưới dạng đặc tả mở qua Open Compute Project (OCP). OpenAI không coi đây là lợi thế cạnh tranh - họ muốn cả ngành vượt qua nút thắt này cùng nhau. "Several players in the industry have their own in-house implementations... that type of market fragmentation is bad for the networking industry," Steinbrecher nói.

Kỹ thuật đằng sau

Ba cơ chế chính tạo nên MRC:

Packet spraying: Thay vì đi một đường, mỗi gói tin được gán một entropy value (EV) ngẫu nhiên, router hash sang đường khác nhau. Mỗi QP (Queue Pair) tạo 128-256 EV, xoay vòng từng gói để phân tải đều trên tất cả đường dẫn - tự động, không cần application biết. Điều này loại bỏ hoàn toàn flow collision.
Packet trimming: Khi switch quá tải và phải bỏ gói, thay vì bỏ nguyên, nó cắt payload và forward header với ưu tiên cao. Bên nhận nhận được header, gửi NACK ngay, retransmission xảy ra trong 1 RTT - nhanh hơn nhiều so với RoCEv2 phải "go back N" từ điểm mất mát.
SRv6 source routing: MRC kết hợp với IPv6 Segment Routing - NIC mã hóa đường đi chính xác vào header gói tin. Switch không cần chạy dynamic routing protocol; bảng forwarding tĩnh, cố định từ lúc khởi động. Khi path fail, MRC tự detect trong vài chục micro-giây và dừng dùng EV đó - không chờ BGP reconverge mất hàng giây.

Nhờ packet spraying hiệu quả ở cấp gói tin, MRC còn cho phép thiết kế topology phẳng hơn: thay vì 3 tầng switch "fat pipe", có thể dùng 2 tầng multi-plane - giảm chi phí, công suất và độ trễ đồng thời tăng dự phòng.

Con số thực tế

Metric	Kết quả	Điều kiện
Latency T0-local (2B)	5.09 µs	NVIDIA GB200 + CX-8 800Gbps
Latency cross-T1 (2B)	6.54 µs	NVIDIA GB200 + CX-8 800Gbps
Bandwidth (32KB)	770 Gb/s = 96% peak	T0-local & cross-T1
Scale throughput	92 GB/s per-NIC	NCCL sendrecv tại 42.000 GPU
Phục hồi sự cố	Vài chục micro-giây	vs BGP: hàng giây
1 MRC QP vs RoCEv2	1 QP > 16 QPs	256 đường spraying vs ECMP
Incast victim flow	Zero impact	RoCEv2 + DCQCN: giảm 75%

Trong production thực tế: một sự cố optical transceiver làm 4 link flap cùng lúc trên cụm 50.000 GPU chỉ gây giảm 25% throughput trong 1 phút - job không crash, không node bị evict.

Không phải InfiniBand, không phải RoCEv2 cũ

Hai lựa chọn truyền thống cho mạng AI lớn:

InfiniBand: latency ~2 µs, lossless credit-based, nhưng độc quyền NVIDIA, đắt, vendor lock-in
RoCEv2: linh hoạt hơn, rẻ hơn, nhưng các ràng buộc legacy (in-order, PFC) khiến kém hiệu quả ở scale lớn

MRC là con đường thứ ba: "the losslessness of InfiniBand with the flexibility of a stateless, global IPv6 standard" (Ron Westfall, HyperFrame Research). Ethernet đã vượt InfiniBand về doanh số cho mạng AI back-end trong năm 2025. Broadcom Tomahawk 5 với 512 port @ 100G có thể kết nối 128K GPU trong 2 tầng - topology đơn giản hơn hẳn so với 3 tầng fat-pipe truyền thống.

Ai nên quan tâm ngay

Hyperscaler & cloud operator: MRC đang chạy production tại Microsoft Fairwater và Oracle Cloud Abilene, Texas. Self-healing network giúp GPU idle time giảm đáng kể.
AI researcher: mạng thông suốt hơn = iteration cycle nhanh hơn. OpenAI nói MRC giúp "turn the crank on our entire research pipeline much faster."
Hardware ecosystem: đặc tả OCP mở hoàn toàn. NVIDIA ConnectX-8, AMD Pollara/Vulcano, Broadcom Thor Ultra (800 Gbps) đã support. Switch: NVIDIA Spectrum-4/5, Broadcom Tomahawk 5 & 6.

Tiếp theo: Ultra Ethernet Transport

MRC là điểm khởi đầu, không phải đích cuối. Broadcom và các đối tác mô tả nó là điểm xuất phát cho thế hệ fabrics tiếp theo. Bước tiếp theo là Ultra Ethernet Transport (UET) - thiết kế lại hoàn toàn transport layer Ethernet, scope rộng hơn, nhắm cả HPC lẫn AI. Learnings từ MRC deployment sẽ định hình UET.

OpenAI Stargate đã vượt 10 GW secured capacity, sớm hơn mục tiêu 2029 ban đầu. Khi AI cluster tiến tới hàng triệu GPU, mạng trở thành chiến trường trung tâm - và MRC là viên gạch đầu tiên cho tiêu chuẩn ngành mở.

Nguồn: OpenAI blog, Technical paper, The Deep View, Datacenter Knowledge.