8002026-06-25
LMCache: vì sao coding agent chậm là do KV cache chứ không phải model
Coding agent đa lượt tái dùng được 93-97% prefix nhưng phần lớn pipeline vẫn prefill lại từ đầu. LMCache kéo KV cache ra GPU HBM, CPU RAM, disk và Redis để dùng chung giữa các engine. vLLM + LMCache đạt throughput cao gấp 15 lần trong workload multi-round QA. Benchmark trên 2x AMD MI300X cho 32 user agentic trace ghi nhận TTFT trung bình giảm 3.0 lần và 2.3 lần requests hoàn thành.