// Posts#gpu-optimization
Unsloth x NVIDIA: 3 tối ưu hoá giúp training LLM nhanh hơn ~25%
#10112026-05-07

Unsloth x NVIDIA: 3 tối ưu hoá giúp training LLM nhanh hơn ~25%

Unsloth hợp tác với NVIDIA loại bỏ 3 bottleneck ẩn trong training pipeline, đẩy tốc độ lên ~25% mà không cần đổi phần cứng. Qwen3-14B QLoRA ghi nhận +43.3% forward pass; Llama-3.2-1B tiết kiệm 199 ms mỗi step. Llama 3.1 8B trên RTX 5090 đạt 122,181 tokens context - gấp 12x Flash Attention 2. Open-source, miễn phí, hỗ trợ từ RTX 3090 đến NVIDIA Blackwell B200.

unslothnvidiallm-training
6 phút đọc
#272025-03-16

DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU

Ngày 16/04/2026, DeepSeek tung bản DeepGEMM mới gom toàn bộ forward path của MoE — dispatch, linear1, SwiGLU, linear2, combine — vào một mega-kernel duy nhất, chồng NVLink traffic lên Tensor Core MMAs. Không còn chuỗi compute–wait–transfer. GPU đỡ idle, scaling multi-GPU MoE sạch hơn hẳn.

deepseekdeepgemmmixture-of-experts
7 phút đọc