Tất cả bài viết

// Posts#nemo-rl

#8162026-05-02

NVIDIA tăng tốc RL 2.5× bằng Speculative Decoding - không đánh đổi chất lượng

NVIDIA tích hợp speculative decoding vào NeMo RL, đạt 1.8× tốc độ sinh token ở scale 8B và chiếu 2.5× tăng tốc end-to-end ở scale 235B trên 2048 GPU GB200. Điểm đặc biệt: lossless hoàn toàn - policy vẫn học từ đúng distribution của model gốc, khác hẳn các phương pháp async hay off-policy. Dùng EAGLE-3 làm draft model, k=3 token là tối ưu, domain-specific init cho 1.77× so với 1.51× từ generic chat. Có sẵn trong NeMo RL v0.6.0, Apache 2.0.

nvidiaspeculative-decodingreinforcement-learning

6 phút đọc