- Intel vừa public 3 checkpoint Wan2.2 (TI2V-5B, T2V-A14B, I2V-A14B) lượng tử hoá INT4 bằng AutoRound trên Hugging Face.
- Weights co lại ~4 lần, mở đường chạy model video 27B MoE của Alibaba trên một GPU duy nhất thay vì cần A100/H100.
TL;DR
Đội quantization của Intel (dẫn dắt bởi Haihao Shen) vừa đẩy lên Hugging Face 3 phiên bản INT4 AutoRound cho họ Wan2.2 — bộ mô hình video generation open-source mạnh nhất hiện tại của Alibaba. Cả 3 đều dùng scheme W4A16 group-size 128, license Apache 2.0, và serve được qua một nhánh fork của vLLM. Tác động: weights co lại ~4× so với FP16, T2V-A14B MoE 27B có cơ hội chạy trên card 24–48 GB thay vì phải bám A100 80 GB.
Có gì mới
3 checkpoint được release cùng thời điểm (update "1 day ago" tính tới 2026-04-21):
- Intel/Wan2.2-TI2V-5B-Diffusers-int4-AutoRound — hybrid text/image-to-video, bản 5B dense, friendly với GPU consumer.
- Intel/Wan2.2-T2V-A14B-Diffusers-int4-AutoRound — text-to-video, MoE 27B tổng / 14B active.
- Intel/Wan2.2-I2V-A14B-Diffusers-int4-AutoRound — image-to-video, chung backbone MoE với T2V.
Tất cả đều được sinh bằng intel/auto-round — thuật toán lượng tử hoá weight-only dùng signed gradient descent (SignRound) đã được nhận vào vLLM và SGLang.
Vì sao đáng chú ý
Wan2.2 là mô hình video generation MoE đầu tiên được open-source, và bản T2V-A14B ở FP16 từng đòi ~78 GB VRAM để chạy 720p trên một A100 80 GB. Với phần lớn dev indie, con số đó đồng nghĩa "không chạm được". INT4 AutoRound kéo footprint weights về còn khoảng 1/4 — nghĩa là model A14B có cửa fit vào một RTX 4090 / 5090 / L40S sau khi cộng thêm KV cache, activation và VAE overhead.
Quan trọng hơn, đây là bản INT4 có vendor backing: Intel là tác giả thuật toán, có paper (arXiv:2309.05516), và cung cấp đầy đủ lệnh tái lập calibration. Khác hẳn với các bản GGUF community-made vốn thiếu reference công bố.
Thông số kỹ thuật
| Hạng mục | Giá trị |
|---|---|
| Quantization scheme | W4A16, group size 128, symmetric |
| Calibration | 100 iters · 32 samples · COCO2014 · 3 inference steps |
| Base T2V-A14B | 27B total, 14B active, 2-expert MoE (high-noise + low-noise) |
| FP16 peak memory (720p) | ~78 GB (A100) |
| Wan2.2-VAE | Compression 16×16×4 |
| Serving default | 832×480, 48 frames, 16 fps, 40 steps, CFG 5.0 |
| Runtime | vLLM (nhánh lvliang-intel/vllm-omni@feats/ar-w4a16-wan22) |
| License | Apache 2.0 |
Lệnh serve chuẩn theo model card:
pip install git+https://github.com/lvliang-intel/vllm-omni.git@feats/ar-w4a16-wan22
vllm serve Intel/Wan2.2-TI2V-5B-Diffusers-int4-AutoRound --omni --port 8091So sánh các variant
| Variant | Params | Task | Target GPU |
|---|---|---|---|
| TI2V-5B INT4 | 5B dense | Hybrid T2V + I2V, 720p@24fps | RTX 4090 class |
| T2V-A14B INT4 | 27B MoE / 14B active | Text→Video, 480p/720p 5s | High-end single GPU |
| I2V-A14B INT4 | 27B MoE / 14B active | Image→Video, 480p/720p | High-end single GPU |
So với các bản quant Wan2.2 khác: GGUF của QuantStack nhắm tới stack llama.cpp/CPU; FP8 GGUF của wangkanai giữ accuracy tốt hơn nhưng không giảm VRAM mạnh bằng INT4. AutoRound là lựa chọn duy nhất đi thẳng vào stack Diffusers/Transformers/vLLM với paper reference.
Use cases
- Indie creators dùng ComfyUI hoặc Diffusers local: chạy A14B trên một 4090 thay vì phải thuê A100 theo giờ.
- Inference server: deploy vLLM với cost GPU/video thấp hơn đáng kể, throughput cao hơn nhờ batch.
- Research teams: có reference calibration config để áp dụng AutoRound cho diffusion backbone khác (SD3, Flux, HunyuanVideo...).
- Edge / on-prem: Apache 2.0 cho phép triển khai nội bộ không vướng license, model chạy offline.
Limitations & pricing
Vài điểm cần cân nhắc trước khi production:
- Chưa có số FID / CLIPScore / Wan-Bench 2.0 công bố cho bản INT4 vs FP16 — user cần tự benchmark.
- Yêu cầu fork
vllm-omnibranchfeats/ar-w4a16-wan22, chưa merge upstream vLLM main. - Lượt download mới ở mức 10–18/tháng — ecosystem tooling (ComfyUI nodes, auto1111 plugin) còn đang bắt kịp.
- Cảnh báo chuẩn của diffusion model: có thể sinh nội dung bias hoặc không an toàn — cần safety layer riêng.
Giá: miễn phí, Apache 2.0, chi phí chỉ là GPU time của bạn.
What's next
Ngắn hạn: AutoRound được đẩy lên upstream vLLM main (RFC đã có trong repo llm-compressor của vLLM project), Intel công bố bảng so sánh accuracy vs baseline trên Wan-Bench 2.0, và các format thấp hơn như NVFP4 / MXFP4 cho cùng họ Wan2.2 khi hardware Blackwell / Gaudi 3 phổ biến hơn. Cộng đồng ComfyUI nhiều khả năng sẽ có custom node cho AutoRound diffusion sau vài tuần. Nếu bạn đang build pipeline video generation — đây là thời điểm đáng test: clone 3 checkpoint ở trên, so sánh chất lượng output với FP16 bản gốc trên prompt của chính mình, benchmark latency và VRAM footprint thực tế. Với Apache 2.0 và không chi phí license, chi phí thử nghiệm gần như bằng zero ngoài GPU time.
Nguồn: Intel @ Hugging Face, intel/auto-round, Alibaba Cloud blog, AutoRound paper.


