Hardware Recipes, Benchmark đúng cách và 10 sai lầm hay gặp khi chọn LLM Inference Engine
Mỗi setup hardware có recipe engine tối ưu riêng - từ CPU-only server đến cụm 8×H100. Benchmark tốt đo TTFT, TPOT, p95 và KV cache hit rate - không phải tok/s single-user. Và 10 sai lầm phổ biến nhất mà hầu hết team đều mắc ít nhất một lần. Phần cuối trong series 4 bài.
Inference Engine cho LLM: Kiến trúc và nền tảng bạn cần hiểu trước khi chọn
Inference engine không phải là model - nó là lớp phần mềm quyết định latency, chi phí và khả năng mở rộng. Prefill là compute-bound, decode là memory bandwidth-bound, và 5 bottleneck thực sự không liên quan gì đến thông số GPU bạn thường xem. Bài đầu trong series 4 phần về Self-hosted LLM 2026.