DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU

TL;DR

DeepSeek vừa ship bản cập nhật lớn cho DeepGEMM ngày 16/04/2026, với hai tính năng chính: Mega MoE và FP4 Indexer. Mega MoE nhét toàn bộ forward path của một layer MoE — EP dispatch, linear1 (FP8×FP4), SwiGLU, linear2 (FP8×FP4), EP combine — vào một kernel duy nhất, đồng thời chồng NVLink communication lên Tensor Core computation. Thay vì chuỗi launch rời rạc với barrier ở giữa, GPU chạy liên tục, idle time giảm mạnh, scaling multi-GPU MoE cải thiện rõ.

Có gì mới

Trước đây, một bước forward MoE trên cluster NVLink phải đi qua nhiều kernel rời: dispatch token sang các expert rank → chạy MLP (2 linear + SwiGLU) → combine kết quả về. Mỗi mũi tên là một lần launch CUDA, kèm một lần chờ all-to-all qua NVLink. Tensor Cores đứng yên trong khi traffic đang bay.

Mega MoE làm ngược lại: một mega-kernel duy nhất thực hiện dispatch + linear1 + SwiGLU + linear2 + combine, và quan trọng hơn, NVLink communication được overlap với Tensor Core MMAs. Cùng lúc một warpgroup đang fetch/send token qua NVLink, warpgroup khác đang đốt FP8×FP4 matmul trên Tensor Core. Hết compute–wait–transfer.

Release này còn đi kèm FP8×FP4 GEMM (dense), FP4 Indexer (hỗ trợ MTP — Multi-Token Prediction — lớn hơn), Programmatic Dependent Launch (PDL), JIT compile nhanh hơn, và vá các lỗi JIT crash + kernel hang trên distributed filesystem.

Vì sao quan trọng

Với MoE ở scale (DeepSeek-V3, Mixtral-class, các model 100B+ actived-sparse), all-to-all dispatch/combine qua NVLink thường ăn 20–40% step time. Mọi giây NVLink traffic là một giây Tensor Core rảnh. Fuse + overlap không giảm lượng bytes phải truyền, nhưng ẩn chi phí đó sau compute — đây là tối ưu kinh điển mà bây giờ DeepSeek đóng gói ở cấp kernel thay vì bắt framework tự chain.

Tín hiệu lớn hơn: DeepGEMM đang tiến hoá từ một "thư viện FP8 GEMM nhanh" thành một performance toolkit có thể tune. Release phơi ra các knob cấp thấp — SM usage, Tensor Core utilization, JIT behavior — để kỹ sư tinh chỉnh theo workload thay vì tin mặc định của thư viện. Feels less like a feature drop, more like một viết lại cách MoE được execute ở scale.

Thông số kỹ thuật

Hạng mục	Chi tiết
Ngày release	16/04/2026 ("Public release 26/04")
Ops fuse trong 1 kernel	EP dispatch → linear1 (FP8×FP4) → SwiGLU → linear2 (FP8×FP4) → EP combine
Overlap	NVLink comms ẩn sau Tensor Core MMAs (persistent thread-block specialization)
Scope hiện tại	FP8 × FP4 MoE, Expert Parallel ≤ 8
GPU hỗ trợ	SM90 (Hopper: H100/H800/H200), SM100 (Blackwell: B200)
Yêu cầu	PyTorch ≥ 2.9 (symmetric memory allocation)
DeepGEMM baseline FP8	tới 1550 TFLOPS trên H800
Benchmark Mega MoE	"Performance comparison will be posted later" — chưa public

So sánh

So với DeepGEMM các bản trước (Feb 2025 ra mắt, Jul 2025 refactor JIT-CPP, Sep 2025 thêm MQA scoring kernels): MoE chạy như chuỗi kernel riêng, NVLink traffic nằm giữa các launch. Tensor Core underutilized mỗi lần chờ dispatch/combine.

So với NVIDIA CUTLASS / cuBLAS: những thư viện đó cung cấp GEMM building blocks. Chúng không fuse EP dispatch+combine với MatMul vào một kernel. DeepGEMM đi hướng ngược — ship cả forward MoE như một đơn vị tunable.

So với vLLM, SGLang, TensorRT-LLM: các framework inference này đã dùng DeepGEMM làm backend kernel. Mega MoE cho phép họ bỏ chuỗi dispatch/MatMul/combine tự chain và thay bằng một launch duy nhất. Mã inference sạch hơn, ít điểm fail hơn, đỡ race condition all-to-all.

Ai được lợi

Đội training MoE large-scale — DeepSeek-V3/V3.2, Mixtral-8x22B, Qwen-MoE — trên cluster H100/H800/H200/B200 có NVLink.
Inference stack (vLLM, SGLang, TensorRT-LLM) phục vụ MoE model, EP ≤ 8. Swap layer MoE sang kernel fused là đổi một dòng.
Speculative decoding — FP4 Indexer hỗ trợ Multi-Token Prediction window lớn hơn, hợp với pipeline draft-then-verify.
Kernel engineers muốn tune: các knob SM count, PDL, JIT được expose, iterate perf không cần patch C++.

Giới hạn & giá

Giá: miễn phí, Apache-2.0. Không có phí license.

Giới hạn phần cứng: chỉ Hopper (SM90) và Blackwell (SM100) với NVLink. Không có support consumer card, không có AMD/Intel.

Scope release này: Mega MoE hiện chỉ FP8×FP4 và EP ≤ 8. Larger EP (16/32/64) vẫn fallback sang chuỗi kernel cũ — đội chạy cluster > 8 rank vẫn phải chờ bản sau.

Phần mềm: PyTorch ≥ 2.9 là cứng (vì symmetric memory allocation giữa các rank cần API mới).

Benchmarks: DeepSeek chưa công bố số MoE throughput head-to-head tại launch — "posted later" có nghĩa con số thật phải chờ cộng đồng reproduce hoặc DeepSeek chính thức tung.

Điều đáng theo dõi tiếp

Ba thứ cần canh: (1) con số benchmark Mega MoE chính thức — khả năng cao sẽ xuất hiện trong 2–4 tuần tới khi có data H800 vs B200; (2) mở rộng EP lên > 8 cho deployment cluster lớn hơn; (3) FP4 Indexer perf data riêng cho MTP window dài — hợp speculative decoding.

Xu hướng rộng hơn: DeepSeek đang dịch chuyển DeepGEMM về hướng "tunable toolkit", trong khi NVIDIA giữ CUTLASS ở tầng building-block. Nếu bạn build stack MoE serving, đây là tín hiệu cần theo sát — một kernel thay thế giúp cắt đáng kể compute–wait–transfer overhead.

Nguồn: deepseek-ai/DeepGEMM, PANews report, DeepWiki docs, @jiqizhixin.