Intel tung 3 phiên bản Wan2.2 INT4 AutoRound: kéo video generator 27B về GPU đơn

TL;DR

Đội quantization của Intel (dẫn dắt bởi Haihao Shen) vừa đẩy lên Hugging Face 3 phiên bản INT4 AutoRound cho họ Wan2.2 — bộ mô hình video generation open-source mạnh nhất hiện tại của Alibaba. Cả 3 đều dùng scheme W4A16 group-size 128, license Apache 2.0, và serve được qua một nhánh fork của vLLM. Tác động: weights co lại ~4× so với FP16, T2V-A14B MoE 27B có cơ hội chạy trên card 24–48 GB thay vì phải bám A100 80 GB.

Có gì mới

3 checkpoint được release cùng thời điểm (update "1 day ago" tính tới 2026-04-21):

Intel/Wan2.2-TI2V-5B-Diffusers-int4-AutoRound — hybrid text/image-to-video, bản 5B dense, friendly với GPU consumer.
Intel/Wan2.2-T2V-A14B-Diffusers-int4-AutoRound — text-to-video, MoE 27B tổng / 14B active.
Intel/Wan2.2-I2V-A14B-Diffusers-int4-AutoRound — image-to-video, chung backbone MoE với T2V.

Tất cả đều được sinh bằng intel/auto-round — thuật toán lượng tử hoá weight-only dùng signed gradient descent (SignRound) đã được nhận vào vLLM và SGLang.

Vì sao đáng chú ý

Wan2.2 là mô hình video generation MoE đầu tiên được open-source, và bản T2V-A14B ở FP16 từng đòi ~78 GB VRAM để chạy 720p trên một A100 80 GB. Với phần lớn dev indie, con số đó đồng nghĩa "không chạm được". INT4 AutoRound kéo footprint weights về còn khoảng 1/4 — nghĩa là model A14B có cửa fit vào một RTX 4090 / 5090 / L40S sau khi cộng thêm KV cache, activation và VAE overhead.

Quan trọng hơn, đây là bản INT4 có vendor backing: Intel là tác giả thuật toán, có paper (arXiv:2309.05516), và cung cấp đầy đủ lệnh tái lập calibration. Khác hẳn với các bản GGUF community-made vốn thiếu reference công bố.

Thông số kỹ thuật

Hạng mục	Giá trị
Quantization scheme	W4A16, group size 128, symmetric
Calibration	100 iters · 32 samples · COCO2014 · 3 inference steps
Base T2V-A14B	27B total, 14B active, 2-expert MoE (high-noise + low-noise)
FP16 peak memory (720p)	~78 GB (A100)
Wan2.2-VAE	Compression 16×16×4
Serving default	832×480, 48 frames, 16 fps, 40 steps, CFG 5.0
Runtime	vLLM (nhánh `lvliang-intel/vllm-omni@feats/ar-w4a16-wan22`)
License	Apache 2.0

Lệnh serve chuẩn theo model card:

pip install git+https://github.com/lvliang-intel/vllm-omni.git@feats/ar-w4a16-wan22
vllm serve Intel/Wan2.2-TI2V-5B-Diffusers-int4-AutoRound --omni --port 8091

So sánh các variant

Variant	Params	Task	Target GPU
TI2V-5B INT4	5B dense	Hybrid T2V + I2V, 720p@24fps	RTX 4090 class
T2V-A14B INT4	27B MoE / 14B active	Text→Video, 480p/720p 5s	High-end single GPU
I2V-A14B INT4	27B MoE / 14B active	Image→Video, 480p/720p	High-end single GPU

So với các bản quant Wan2.2 khác: GGUF của QuantStack nhắm tới stack llama.cpp/CPU; FP8 GGUF của wangkanai giữ accuracy tốt hơn nhưng không giảm VRAM mạnh bằng INT4. AutoRound là lựa chọn duy nhất đi thẳng vào stack Diffusers/Transformers/vLLM với paper reference.

Use cases

Indie creators dùng ComfyUI hoặc Diffusers local: chạy A14B trên một 4090 thay vì phải thuê A100 theo giờ.
Inference server: deploy vLLM với cost GPU/video thấp hơn đáng kể, throughput cao hơn nhờ batch.
Research teams: có reference calibration config để áp dụng AutoRound cho diffusion backbone khác (SD3, Flux, HunyuanVideo...).
Edge / on-prem: Apache 2.0 cho phép triển khai nội bộ không vướng license, model chạy offline.

Limitations & pricing

Vài điểm cần cân nhắc trước khi production:

Chưa có số FID / CLIPScore / Wan-Bench 2.0 công bố cho bản INT4 vs FP16 — user cần tự benchmark.
Yêu cầu fork vllm-omni branch feats/ar-w4a16-wan22, chưa merge upstream vLLM main.
Lượt download mới ở mức 10–18/tháng — ecosystem tooling (ComfyUI nodes, auto1111 plugin) còn đang bắt kịp.
Cảnh báo chuẩn của diffusion model: có thể sinh nội dung bias hoặc không an toàn — cần safety layer riêng.

Giá: miễn phí, Apache 2.0, chi phí chỉ là GPU time của bạn.

What's next

Ngắn hạn: AutoRound được đẩy lên upstream vLLM main (RFC đã có trong repo llm-compressor của vLLM project), Intel công bố bảng so sánh accuracy vs baseline trên Wan-Bench 2.0, và các format thấp hơn như NVFP4 / MXFP4 cho cùng họ Wan2.2 khi hardware Blackwell / Gaudi 3 phổ biến hơn. Cộng đồng ComfyUI nhiều khả năng sẽ có custom node cho AutoRound diffusion sau vài tuần. Nếu bạn đang build pipeline video generation — đây là thời điểm đáng test: clone 3 checkpoint ở trên, so sánh chất lượng output với FP16 bản gốc trên prompt của chính mình, benchmark latency và VRAM footprint thực tế. Với Apache 2.0 và không chi phí license, chi phí thử nghiệm gần như bằng zero ngoài GPU time.

Nguồn: Intel @ Hugging Face, intel/auto-round, Alibaba Cloud blog, AutoRound paper.

Intel tung 3 phiên bản Wan2.2 INT4 AutoRound: kéo video generator 27B về GPU đơn

TL;DR

Có gì mới

Vì sao đáng chú ý

Thông số kỹ thuật

So sánh các variant

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mozilla ra mắt Thunderbolt — AI client mã nguồn mở chạy trên hạ tầng của chính bạn

DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ

Hermes Agent v0.11.0: Nous Research ships biggest update yet with 761 PRs, TUI v2, and QQBot

Hermes Agent v0.11.0: Bản cập nhật lớn nhất với 761 PR, TUI React/Ink mới và 17 messaging platform

MultiWorld — Video World Model đầu tiên sinh video đa agent, đa góc nhìn