TL;DR

DeepSeek vừa release TileKernels — thư viện kernel GPU viết hoàn toàn bằng Python (qua TileLang DSL), MIT license, đạt hơn 1.1k stars chỉ sau 1 ngày. Nó bypass CUDA C++ và NVIDIA CUTLASS, target trực tiếp tile-level architecture của Hopper (SM90) và Blackwell (SM100). FP8/FP4/E5M6 quantization per-channel, MoE routing fused, SwiGLU + quantization gộp 1 kernel. Operators đã chạy production nội bộ DeepSeek, không phải prototype.

What's new

Sáng 24/04/2026, repo deepseek-ai/TileKernels xuất hiện trên GitHub. Khác với mọi "AI repo" trước đây của DeepSeek (model weights, inference engine), lần này họ đẩy thẳng lớp gần silicon nhất — chỗ mà Google (TPU kernels), NVIDIA (cuBLAS, CUTLASS), và Meta (internal stack) gần như không bao giờ public.

Cùng tuần, DeepGEMM PR #304 cũng landed: thêm Mega MoE — một mega-kernel duy nhất fuse cả dispatch / linear1 / SwiGLU / linear2 / combine, đồng thời overlap NVLink communication với tensor core compute. Kèm theo: FP8×FP4 GEMM, FP4 Indexer cho MQA logits, PDL support, JIT compile nhanh hơn.

Hai release này gộp lại đại diện cho một thông điệp rõ: lớp kernel — chứ không phải lớp framework — mới là nơi quyết định performance của LLM hiện đại.

Technical facts

Kernels có sẵn trong TileKernels:

  • MoE: gating, routing, token-to-expert mapping, weight normalization
  • Quantization: per-token / per-block / per-channel FP8 / FP4 / E5M6 casting với fused SwiGLU + quantization
  • Transpose: batched operations
  • Engram: gating kernel với fused RMSNorm + backward pass
  • Manifold HyperConnection: Sinkhorn normalization + connection kernels
  • Modeling: high-level PyTorch autograd layers

Stack requirement (bleeding-edge):

ComponentMin version
Python3.10+
PyTorch2.10+
TileLang0.1.9+
CUDA13.1+
GPUSM90 (Hopper) hoặc SM100 (Blackwell)

Install: pip install tile-kernels. Authors note: kernels "approach the limit of hardware performance" — họ vẫn đang optimize "code quality" thôi, không phải performance.

Why it matters

Most devs build on top of frameworks. PyTorch, JAX, TensorRT — đó là tầng abstraction. Nhưng performance thật sự của một LLM ở scale (DeepSeek-V3, Mixtral, GPT-class) được quyết định ở tầng dưới framework: kernel level.

Khi quantization được set per-channel ở kernel (chứ không phải global ở framework), bạn tận dụng được dải động của FP8/FP4 mà không mất accuracy. Khi MoE routing được fuse vào tensor core kernel (chứ không phải sequential ops trên Python), bạn tránh được hàng chục lần round-trip qua HBM. Khi NVLink communication overlap được với compute trong cùng một mega-kernel, bạn loại bỏ hoàn toàn idle time giữa các expert.

Đó là edge mà các elite AI labs giữ kín. DeepSeek vừa public hoá nó. Và việc public bằng Python (qua TileLang) thay vì CUDA C++ còn quan trọng hơn — nó hạ rào cản kỹ thuật đủ thấp để bất kỳ ML engineer nào biết PyTorch cũng có thể đọc, sửa, fork. Đây là khác biệt cốt lõi so với CUTLASS: cùng performance, nhưng accessible.

Comparison

LayerCUDA C++ (CUTLASS)Framework (PyTorch eager)TileKernels
Ngôn ngữC++ template metaprogrammingPythonPython (TileLang DSL)
Iteration speedChậm — recompile, debug khóNhanh nhưng overhead lớnNhanh + zero overhead
Quant granularityPer-channel khả thi nhưng phức tạpThường global / per-tensorPer-token, per-block, per-channel built-in
MoE fusionTự viếtSequential opsMega-kernel + NVLink overlap
HardwareMọi NVIDIAMọi acceleratorHopper / Blackwell only

Use cases

  • LLM training/inference at scale trên cluster H100/H200/B200 — đặc biệt MoE models (DeepSeek-V3.2, Mixtral-class) nơi routing và quantization là hot path.
  • Researchers muốn prototype custom kernels mà không phải đụng vào CUDA C++ template hell.
  • Infra teams đã có Hopper/Blackwell budget và muốn squeeze tối đa FLOP cho FP8/FP4 workloads.
  • Inference engine như vLLM, SGLang — vốn đã integrate DeepGEMM — giờ có thêm building blocks để tối ưu MoE serving.

Limitations & pricing

Pricing: free, MIT license, không có tier nào.

Hard constraints:

  • Chỉ chạy NVIDIA SM90 (Hopper: H100, H200) và SM100 (Blackwell: B100, B200, GB200). Ampere (A100) trở xuống — không. AMD, TPU — không.
  • Toolchain bleeding-edge: CUDA 13.1+, PyTorch 2.10+ — không drop-in cho stack production cũ.
  • Mega MoE trong DeepGEMM hiện chỉ support FP8×FP4 variant, yêu cầu PyTorch ≥ 2.9.
  • Không có official benchmark numbers công bố — DeepGEMM PR ghi rõ "Performance number will be posted later".

What's next

Đây là phát súng tiếp theo trong chuỗi DeepSeek "Open Source Week" mở rộng (bắt đầu từ Feb 2025 với DeepGEMM, FlashMLA, DeepEP). Việc public TileKernels có 2 hệ quả lớn:

1. Cộng đồng open-source LLM được nâng cấp một bậc. Trước đây, gap giữa lab nội bộ và public OSS ở tầng kernel là rất rộng. Giờ gap đó đang được lấp.

2. Áp lực lên Western closed stacks tăng. Khi DeepSeek public lớp infra mà Google/NVIDIA/Meta giữ kín, toàn bộ chiến lược "closed-stack moat" bị thách thức. Hai năm tới, đừng ngạc nhiên khi thấy CUTLASS hay XLA được mở thêm, hoặc các lab khác (Mistral, Qwen, Moonshot) cũng đẩy kernel layer ra public.

Nguồn: deepseek-ai/TileKernels, Fakta, DeepGEMM PR #304.