// Posts#zcube
ZCube: Kiến Trúc Mạng Thế Hệ Mới Giải Quyết Tắc Nghẽn LLM Inference
#7102026-05-21

ZCube: Kiến Trúc Mạng Thế Hệ Mới Giải Quyết Tắc Nghẽn LLM Inference

ZCube là kiến trúc mạng flattened topology do Z.ai, Harnets.AI và Đại học Tsinghua phát triển, được công bố tại ACM SIGCOMM 2025. Triển khai thực tế trên cluster ngàn GPU chạy GLM-5.1, ZCube giảm 33% CapEx switch và optical module mà không thay đổi GPU hay phần mềm. Throughput inference tăng 15%, TTFT P99 giảm 40.6% - chỉ bằng cách nâng cấp kiến trúc mạng. Với cluster 10,000 GPU, ZCube tiết kiệm khoảng 210-640 triệu RMB chi phí phần cứng mạng.

llm-inferencenetwork-architecturezcube
7 phút đọc