- Alibaba vừa bật endpoint qwen-image-2.0-pro-2026-04-22: chất lượng ảnh sắc nét hơn, render text song ngữ chuẩn character-level, instruction following ổn định hơn giữa các style.
- Hiện xếp #9 worldwide ở Text-to-Image trên AI Arena.
- Thử miễn phí trên ModelScope hoặc cắm thẳng API qua Alibaba Cloud ModelStudio.
TL;DR
Qwen-Image-2.0-Pro (snapshot qwen-image-2.0-pro-2026-04-22) đã live trên ModelScope studio và Alibaba Cloud ModelStudio API. Bản Pro đẩy 3 trục — image quality, multilingual text rendering, instruction following — và quan trọng hơn là consistency across styles: ảnh photorealistic, illustration hay typography đều giữ chất lượng đồng đều. Hiện xếp #9 worldwide ở hạng mục Text-to-Image trên AI Arena — top 10 trong rổ đông competitor đóng nguồn như Nano Banana Pro, GPT Image, Imagen.
What's new
- Pro tier bổ sung trên family Qwen-Image-2.0 (base 7B ra tháng 2/2026): chi tiết tốt hơn, aesthetic cao hơn, control tốt hơn ở cảnh nhiều subject.
- Endpoint dedicated:
qwen-image-2.0-pro-2026-04-22trên ModelStudio (regionap-southeast-1, có quota international). - ModelScope studio mở demo miễn phí — không cần API key để test.
- Editing Pro đi kèm: precision cao hơn, context awareness tốt hơn, output đạt chuẩn production cho retouch và transform.
Why it matters
Diffusion model thường vỡ trận khi gặp text trong ảnh — đặc biệt văn bản dài, đa ngôn ngữ, hay font nhỏ trên surface phức tạp. Qwen-Image-2.0 vốn đã solve mảng này tốt nhất open-source. Bản Pro đẩy thêm một bậc: render được poster bilingual Trung-Anh, slide PPT có bullet căn lề chuẩn, comic với dialogue căn giữa bubble. Với đội marketing SMB và freelance designer, đây là lần đầu một API generation có giá hợp lý mà ra được creative có chữ dùng thẳng được — không phải sửa lại Photoshop.
Điểm quan trọng thứ hai là consistency: trước đây các model T2I chất lượng dao động mạnh giữa style realistic và style minh hoạ — prompt giống nhau, ảnh khác hẳn class. Pro tier giảm dao động đó, giúp pipeline production (vd batch generate hàng trăm asset cùng brand) ra kết quả đoán được. Đối với team build app GenAI, đây là yếu tố quyết định có dám đưa vào sản phẩm thật hay không.
Technical facts
Family architecture (base 2.0) chạy pipeline 2 stage: 8B Qwen3-VL Encoder → 7B Diffusion Decoder. Tổng ~7B params decoder vs 20B của Qwen-Image v1 — nhẹ hơn ~3×, inference nhanh hơn. Pro tier dùng cùng backbone, fine-tune cho aesthetic và detail.
| Property | Qwen-Image-2.0-Pro |
|---|---|
| Decoder params | ~7B |
| Encoder | Qwen3-VL 8B |
| Native resolution | 2048×2048 (2K) |
| Prompt length | up to 1.000 tokens |
| Modes | T2I + image editing (unified) |
| Languages (text-in-image) | Chinese + English (bilingual native) |
| API region | ap-southeast-1 (international) |
Năm thuộc tính text rendering Alibaba claim đạt được: character-level chính xác (zh/en), xử lý text khối lượng lớn, composition và spacing đẹp, adapt thực tế lên surface (kính, vải, biển hiệu), và layout có cấu trúc (calendar, comic, data chart).
Comparison
Trên benchmark tự động (đo trên base 2.0, Pro chưa có số public riêng):
| Benchmark | Qwen-Image-2.0 | FLUX.1 | GPT Image 1 |
|---|---|---|---|
| DPG-Bench | 88.32 | 83.84 | 85.15 |
| GenEval | 0.91 | 0.66 | — |
Trên AI Arena (blind human eval — judge so sánh ảnh không biết model nào): base 2.0 từng đứng #1 cả T2I lẫn editing. Bản Pro tuần này xếp #9 worldwide ở Text-to-Image — vẫn nằm top 10 trong cuộc đua đông closed-source. Tradeoff đáng giá: 7B params, có path open-weights ở base, giá API rẻ hơn nhiều so với Nano Banana Pro hay GPT Image.
Một cách đọc khác: ranking #9 không phản ánh hết giá trị — Arena chấm preference tổng quát, trong khi Qwen mạnh nhất ở mảng text-in-image mà đa số competitor vẫn loay hoay. Nếu use case của bạn dính tới chữ trong ảnh (poster, infographic, packaging), Qwen-Image-2.0-Pro thực tế có thể beat các model xếp trên nó ở chính nhóm task đó.
Use cases
- Marketing creatives bilingual: poster, packaging, signage Trung-Anh không cần designer fix text.
- Infographic + slide deck: prompt 1.000 tokens đủ chỗ mô tả layout có headline, bullets, số liệu.
- Comic và storyboard: dialogue bubble căn giữa, multi-panel layout.
- Photorealistic portrait/product: pore da, fabric weave, lighting ở 2K.
- Image editing pro: outfit swap, group photo recompose, style transfer giữ ngữ cảnh nhân vật.
Limitations & pricing
- Test thực tế (36Kr) cho thấy font nhỏ và text dày đặc vẫn có thể unreadable ở 2K — không thay được designer cho passage text dài.
- #9 Arena tức vẫn dưới các SOTA closed-source (Nano Banana Pro, GPT Image 1, Imagen) ở blind human preference.
- Pro variant không open-weights như base 2.0 — chỉ qua ModelScope hosted studio + ModelStudio API. Muốn self-host phải dùng base 7B.
- Pricing: Alibaba chưa công bố giá per-image trong launch announcement; check trực tiếp ModelStudio console để xem tier giá international.
What's next
Kỳ vọng gần: Qwen-Image-Edit 2.0 Pro song hành (editing tier riêng biệt), open weights cho Pro nếu Alibaba theo pattern cũ với Qwen LLM family, và tiếp tục leo Arena ranking sau vài đợt fine-tune. Trong ngắn hạn, đáng test ngay trên ModelScope studio trước khi commit gọi API.
Nguồn: Alibaba_Qwen launch tweet, Qwen-Image blog, Alibaba Cloud, WaveSpeedAI benchmarks.

