Unsloth x NVIDIA: 3 tối ưu hoá giúp training LLM nhanh hơn ~25%
Unsloth hợp tác với NVIDIA loại bỏ 3 bottleneck ẩn trong training pipeline, đẩy tốc độ lên ~25% mà không cần đổi phần cứng. Qwen3-14B QLoRA ghi nhận +43.3% forward pass; Llama-3.2-1B tiết kiệm 199 ms mỗi step. Llama 3.1 8B trên RTX 5090 đạt 122,181 tokens context - gấp 12x Flash Attention 2. Open-source, miễn phí, hỗ trợ từ RTX 3090 đến NVIDIA Blackwell B200.
DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU
Ngày 16/04/2026, DeepSeek tung bản DeepGEMM mới gom toàn bộ forward path của MoE — dispatch, linear1, SwiGLU, linear2, combine — vào một mega-kernel duy nhất, chồng NVLink traffic lên Tensor Core MMAs. Không còn chuỗi compute–wait–transfer. GPU đỡ idle, scaling multi-GPU MoE sạch hơn hẳn.