Tất cả bài viết

// Posts#llm-serving

#7162026-05-21

vLLM, SGLang và TensorRT-LLM: Chọn production engine nào để serving LLM 2026?

vLLM là default cho hầu hết team. SGLang thắng vLLM 30-40% TTFT với workload RAG và prefix-heavy. TensorRT-LLM đạt 4.500 tok/s trên H100 nhưng đòi compile 28 phút mỗi lần đổi model. TGI chính thức deprecated tháng 3/2026. Bài 3/4 trong series Inference Engine 2026.

vllmsglangtensorrt-llm

8 phút đọc