- Inference trong GPU TEE chỉ overhead <7%.
- Nhưng cold-start thì kinh khủng — tải một model 70B có thể mất vài phút vì bounce buffer encrypt bằng CPU.
- Phala vừa nén con số đó xuống 32 lần.
TL;DR
Phala Network vừa công bố tối ưu pipeline nạp model của vLLM bên trong GPU TEE nhanh hơn 32 lần. Đây không phải tối ưu inference — phần đó đã gần bằng non-TEE từ 2024. Đây là fix cho cold-start: thời gian để weights của một model 70B đi từ host RAM vào HBM đã mã hoá của H100/H200. Trước đây mất vài phút. Giờ tính bằng chục giây. Với marketplace GPU TEE và agent on-chain cần hot-swap model theo tenant, mảnh ghép này quan trọng hơn nhiều người nghĩ.
Vừa có gì mới
Tweet gốc ngắn gọn: "We optimized the vLLM loading performance in GPU TEE for 32x better!". Không hype, không số liệu phụ. Nhưng đặt vào đúng ngữ cảnh thì đây là bước cuối cùng để confidential inference cảm thấy giống plain inference ở phía operator.
Phala đang chạy vLLM trong GPU TEE bằng NVIDIA Confidential Computing mode (H100, H200) + Intel TDX / AMD SEV-SNP ở phía CPU. Setup này đã sống trên Phala Cloud và OpenRouter confidential lane từ 2025. Các benchmark công khai của Phala cho thấy overhead inference trung bình dưới 7%, model 70B gần như bằng 0. Phần duy nhất còn chậm rõ rệt là lúc khởi động — đúng chỗ vừa được sửa.
Vì sao chuyện này quan trọng
Trong chế độ CC-on, GPU không được DMA thẳng từ host RAM vào HBM. Mọi byte weights phải đi qua một encrypted bounce buffer trong shared memory: CPU mã hoá AES-GCM (rotating IVs), GPU giải mã bên kia. Throughput của đường này bị trần bởi AES engine của CPU, không phải PCIe.
Hệ quả đo được trên Hopper:
- Băng thông host→HBM rớt từ ~64 GB/s (cuMemcpy thường) xuống ~6 GB/s (đi qua bounce buffer mã hoá) — chênh gần 10 lần.
- Một model 70B fp16 (~140 GB weights) do đó mất vài phút để nạp xong, chưa tính attestation.
- Nghiên cứu PipeLLM đo được naive encrypted swapping làm OPT-66B mất tới 88.2% throughput.
Với một sản phẩm bán theo hình thức marketplace GPU-by-the-hour, cold-start dài là khoản "thuế" không thu được: warm pool phải to, autoscale phải bảo thủ, spot instance gần như không dùng được cho confidential. 32× loading speedup biến cả ba vấn đề đó thành chuyện bình thường.
Bên dưới con số 32x
Phala chưa công bố paper chi tiết cho announcement này, nhưng hướng đi khớp với dòng research gần đây (đặc biệt là PipeLLM, arXiv 2411.03357) và có thể đọc được từ repo Phala-Network/vllm:
- Pipelining: mã hoá AES-GCM, ghi PCIe, commit vào HBM chạy song song thay vì tuần tự. CPU AES engine và bus làm việc cùng lúc.
- Bounce buffer lớn hơn + pinned: giảm số round-trip, tận dụng multi-threaded AES-NI trên tất cả core.
- Verify-on-arrival: với weights đã được attest + hash từ trước, chuyển từ "decrypt rồi dùng" sang "transfer rồi verify", bỏ bớt một lượt crypto ở đường nạp.
Kết quả claim: 32× nhanh hơn so với đường nạp naive trong TEE. Inference runtime overhead không đổi — attention kernel vẫn chạy trong HBM đã mã hoá phần cứng, PagedAttention vẫn như vLLM mainline. Đây là tối ưu đường vào, không phải GPU kernel.
So sánh trước / sau
| Giai đoạn | Non-TEE | TEE trước tối ưu | TEE sau 32x |
|---|---|---|---|
| Băng thông host→HBM | ~64 GB/s | ~2–6 GB/s | ~32× gần đường plain |
| Cold-start 70B | giây | vài phút | chục giây (ước lượng) |
| TTFT overhead (inference) | baseline | +20–25% | không đổi |
| Throughput steady-state | baseline | <7% avg, ~0% trên 70B | không đổi |
Và so với research gần nhất: PipeLLM kéo overhead KV-cache swap trong vLLM từ 33–53% xuống 5–14%, overhead model offloading từ 88% xuống dưới 20%. Cùng một insight pipelining, nhưng PipeLLM nhắm vào runtime swap, còn Phala nhắm vào cold-start — hai lát cắt của cùng một bài toán.
Ai hưởng lợi nhiều nhất
- Confidential LLM serving cho dữ liệu nhạy cảm (y tế, tài chính, agent on-chain): thời gian từ "spin up enclave" đến "first token" về sát hạ tầng công khai, autoscaling và spot instance bắt đầu dùng được.
- Marketplace GPU TEE (Phala Cloud, OpenRouter confidential, OLLM gateway): warm pool nhỏ đi, giá per-request rẻ đi — cold-start từng là khoản bị amortize méo mó.
- Verifiable AI agents: agent nạp lại model theo session (mỗi tenant một fine-tune) từng bị chặn bởi loading time. Giờ hot-swap model 30B–70B per-tenant trở nên khả thi.
- Private fine-tuning / checkpoint restart: cùng đường đi host→HBM mã hoá, nên cũng hưởng lợi. Iteration loop trên TEE training job ngắn lại.
Giới hạn & pricing
- Chỉ là loading, không phải inference: nếu workload của bạn đang bị cap bởi GPU compute, con số 32× không giúp gì cho throughput hay latency.
- Phụ thuộc phần cứng: tuned cho NVIDIA Hopper CC-on (H100/H200). Blackwell B200 đang trên đường, Ada / Ampere consumer không có CC mode.
- Phụ thuộc CPU host: 32× là headline; gain thực tế phụ thuộc AES-NI throughput và thế hệ PCIe của host.
- Threat model không đổi: weights vẫn đi qua host RAM dạng mã hoá, attestation vẫn cover GPU firmware + CVM image. Đây là tối ưu đường đi an toàn, không phải nới an toàn.
- Pricing: ship trực tiếp trong vLLM runtime tích hợp trên Phala Cloud, không phụ phí. Giá H100/H200 theo marketplace Phala.
Tiếp theo là gì
Roadmap công khai của Phala ưu tiên hai hướng: Blackwell B200 TEE (bandwidth HBM3e cao hơn nhiều, 32× có thể trở thành 50×+) và NVLink TEE multi-GPU (scale-out confidential inference ra cụm 8 GPU mà không vỡ chain-of-trust). Đồng thời, kỳ vọng hợp lý là cùng kỹ thuật pipelining sẽ được áp vào KV-cache swap và LoRA adapter hot-load trong các bản tới của Phala-Network/vllm.
Điểm lớn hơn: từ 2024, GPU TEE đã chứng minh được là overhead inference gần như bằng 0. Thứ còn thiếu để thực sự lên production quy mô lớn là trải nghiệm operator — cold-start, autoscale, hot-swap. Tối ưu 32× này đúng là mảnh ghép đó.
Nguồn: Phala Network trên X, Phala GPU TEE Deep Dive, H100 benchmark study, PipeLLM paper.
