TL;DR

Đội Qwen của Alibaba vừa highlight một bước nhảy quan trọng cho Qwen-Image: khả năng instruction following sắc hơn cho prompt phức tạp — nhiều object, quan hệ không gian, attribute binding (gắn đúng thuộc tính vào đúng object). Tweet kèm câu chốt “Yes, this is not a screenshot” vì ảnh demo trông như UI thật chụp màn hình. Bản nền tảng là Qwen-Image-2.0 (7B, ra Feb 10, 2026), đang đứng top-1 AI Arena với DPG-Bench 88.32 và GenEval 0.91.

What’s new

Qwen team không ra model mới — họ flex một capability đã tinh chỉnh: model bây giờ bám rất sát ngữ nghĩa prompt khi cảnh có nhiều thành phần. Cụ thể:

  • Multiple objects: render đúng số lượng, đúng loại, không “quên” object khi prompt dài.
  • Spatial relationships: “A bên trái B”, “trên”, “phía sau” — giữ đúng layout thay vì hoán đổi tuỳ ý.
  • Attribute binding: “mèo đỏ + bàn xanh” ra đúng mèo đỏ + bàn xanh, không bị lệch màu sang object khác.

Demo đi kèm là một ảnh nhìn y hệt screenshot UI thật — đủ chi tiết và thẳng hàng tới mức đội Qwen phải chú thích rõ “đây không phải screenshot”.

Why it matters

Bám prompt là điểm yếu kinh niên của image model. Một prompt 80 từ cho FLUX hoặc SDXL thường mất 2–3 lần roll mới ra đúng layout, và attribute vẫn lệch — “a red cat sitting on a blue table next to a yellow lamp” rất hay biến thành red lamp + blue cat. Khi instruction following sắc lên, designer/marketer/PM được lợi cụ thể:

  • Bớt “rolling dice”: thay vì sinh 10 ảnh chọn 1, sinh 2 ảnh đã có 1 dùng được — giảm 80% chi phí gen + 80% thời gian curate.
  • Mockup tổ hợp 1-shot: UI hero, product shot nhiều món, scene marketing có nhân vật + đạo cụ — trước phải Photoshop ghép, giờ ra thẳng từ prompt.
  • Prompt dài có cấu trúc: tới 1,000 token — đủ chỗ để mô tả từng object, từng vùng layout, brand color hex, font cảm hứng, mood — mà model vẫn theo kịp thay vì “quên” nửa cuối prompt.
  • Workflow agentic: AI agent có thể tự viết prompt dài và tin vào output — điều kiện cần để image gen đi vào pipeline tự động hoá creative.

Technical facts

Phần kỹ thuật của Qwen-Image-2.0 — nền tảng cho capability này:

PropertyQwen-Image-2.0
EncoderQwen3-VL 8B
DecoderDiffusion 7B
Native resolution2048×2048 (2K)
Max prompt1,000 tokens
DPG-Bench88.32
GenEval0.91
Bilingual renderingCN + EN native
ReleaseFeb 10, 2026

DPG-Bench đo đúng 4 thứ Qwen vừa flex: prompt adherence, object relationships, spatial reasoning, attribute binding. Điểm 88.32 không chỉ là con số — nó chính là cái khiến tweet có nghĩa.

Comparison

ModelParamsDPG-BenchGenEvalPrice/img
Qwen-Image-2.07B88.320.91~$0.028–0.035
FLUX.112B83.840.66varies
FLUX.212B+n/an/a$0.03–0.06

Qwen thắng prompt-adherence ở gần một nửa số param. FLUX.2 vẫn nhỉnh hơn ở chân dung photoreal và aesthetic điện ảnh. Atlas Cloud chốt: “Efficiency + Synergy > Scale” — dùng cả 2 qua API aggregation thay vì chọn một.

Use cases

  • UI mockup & “fake screenshot” hero: đúng cái Qwen demo — landing page hero, app store screenshot, dashboard concept, design pitch deck. Trước phải dựng Figma, giờ prompt thẳng.
  • Infographic & poster chữ nặng: typography render được trong ảnh, không cần Figma overlay. Tiêu đề + sub-headline + 3 bullet số liệu trong cùng 1 lần gen.
  • Multi-object product shot: “3 chai serum trên kệ gỗ, đèn warm, label rõ chữ thương hiệu” — ra đúng layout, đúng màu, đúng số chai. E-commerce listing có thể bypass photo studio cho concept shot.
  • Marketing creative song ngữ CN/EN: không cần pass typography riêng cho từng thị trường — quan trọng cho team launch APAC.
  • Edit pipeline: Qwen-Image-Edit (20B MMDiT, Apache 2.0) cho semantic edit + style transfer + text rewriting trên ảnh có sẵn.
  • Nội dung social tốc độ cao: mỗi post Twitter/Threads/Facebook một hero ảnh đúng concept, không phải tìm stock photo gần đúng.

Limitations & pricing

  • Open weights base 2.0 chưa public tại launch — chỉ có Edit variant Apache 2.0.
  • Photoreal portrait / cinematic look vẫn thua FLUX.2.
  • Giá: ~$0.028–0.035 / image qua Qubrid, Together AI, Atlas Cloud.
  • Truy cập: Qwen Studio, Alibaba Cloud Model Studio API, hoặc third-party host.

What’s next

Đây không phải case lẻ — Alibaba đang đẩy hàng loạt cải tiến instruction-following xuyên suốt family. Qwen3.6-Max-Preview (Apr 20, 2026) cũng vừa đạt +2.8 trên ToolcallFormatIFBench cho text/agent. Open weights cho Qwen-Image-2.0 base là bước tiếp được trông đợi nhất, sẽ mở khoá self-host + fine-tune cho doanh nghiệp.

Nguồn: Qwen-Image Blog, Qubrid AI, Atlas Cloud, @Alibaba_Qwen.