Qwen-Image Vừa Bẻ Khoá "Sharper Instruction Following" — Và Đây Không Phải Screenshot

TL;DR

Đội Qwen của Alibaba vừa highlight một bước nhảy quan trọng cho Qwen-Image: khả năng instruction following sắc hơn cho prompt phức tạp — nhiều object, quan hệ không gian, attribute binding (gắn đúng thuộc tính vào đúng object). Tweet kèm câu chốt “Yes, this is not a screenshot” vì ảnh demo trông như UI thật chụp màn hình. Bản nền tảng là Qwen-Image-2.0 (7B, ra Feb 10, 2026), đang đứng top-1 AI Arena với DPG-Bench 88.32 và GenEval 0.91.

What’s new

Qwen team không ra model mới — họ flex một capability đã tinh chỉnh: model bây giờ bám rất sát ngữ nghĩa prompt khi cảnh có nhiều thành phần. Cụ thể:

Multiple objects: render đúng số lượng, đúng loại, không “quên” object khi prompt dài.
Spatial relationships: “A bên trái B”, “trên”, “phía sau” — giữ đúng layout thay vì hoán đổi tuỳ ý.
Attribute binding: “mèo đỏ + bàn xanh” ra đúng mèo đỏ + bàn xanh, không bị lệch màu sang object khác.

Demo đi kèm là một ảnh nhìn y hệt screenshot UI thật — đủ chi tiết và thẳng hàng tới mức đội Qwen phải chú thích rõ “đây không phải screenshot”.

Why it matters

Bám prompt là điểm yếu kinh niên của image model. Một prompt 80 từ cho FLUX hoặc SDXL thường mất 2–3 lần roll mới ra đúng layout, và attribute vẫn lệch — “a red cat sitting on a blue table next to a yellow lamp” rất hay biến thành red lamp + blue cat. Khi instruction following sắc lên, designer/marketer/PM được lợi cụ thể:

Bớt “rolling dice”: thay vì sinh 10 ảnh chọn 1, sinh 2 ảnh đã có 1 dùng được — giảm 80% chi phí gen + 80% thời gian curate.
Mockup tổ hợp 1-shot: UI hero, product shot nhiều món, scene marketing có nhân vật + đạo cụ — trước phải Photoshop ghép, giờ ra thẳng từ prompt.
Prompt dài có cấu trúc: tới 1,000 token — đủ chỗ để mô tả từng object, từng vùng layout, brand color hex, font cảm hứng, mood — mà model vẫn theo kịp thay vì “quên” nửa cuối prompt.
Workflow agentic: AI agent có thể tự viết prompt dài và tin vào output — điều kiện cần để image gen đi vào pipeline tự động hoá creative.

Technical facts

Phần kỹ thuật của Qwen-Image-2.0 — nền tảng cho capability này:

Property	Qwen-Image-2.0
Encoder	Qwen3-VL 8B
Decoder	Diffusion 7B
Native resolution	2048×2048 (2K)
Max prompt	1,000 tokens
DPG-Bench	88.32
GenEval	0.91
Bilingual rendering	CN + EN native
Release	Feb 10, 2026

DPG-Bench đo đúng 4 thứ Qwen vừa flex: prompt adherence, object relationships, spatial reasoning, attribute binding. Điểm 88.32 không chỉ là con số — nó chính là cái khiến tweet có nghĩa.

Comparison

Model	Params	DPG-Bench	GenEval	Price/img
Qwen-Image-2.0	7B	88.32	0.91	~$0.028–0.035
FLUX.1	12B	83.84	0.66	varies
FLUX.2	12B+	n/a	n/a	$0.03–0.06

Qwen thắng prompt-adherence ở gần một nửa số param. FLUX.2 vẫn nhỉnh hơn ở chân dung photoreal và aesthetic điện ảnh. Atlas Cloud chốt: “Efficiency + Synergy > Scale” — dùng cả 2 qua API aggregation thay vì chọn một.

Use cases

UI mockup & “fake screenshot” hero: đúng cái Qwen demo — landing page hero, app store screenshot, dashboard concept, design pitch deck. Trước phải dựng Figma, giờ prompt thẳng.
Infographic & poster chữ nặng: typography render được trong ảnh, không cần Figma overlay. Tiêu đề + sub-headline + 3 bullet số liệu trong cùng 1 lần gen.
Multi-object product shot: “3 chai serum trên kệ gỗ, đèn warm, label rõ chữ thương hiệu” — ra đúng layout, đúng màu, đúng số chai. E-commerce listing có thể bypass photo studio cho concept shot.
Marketing creative song ngữ CN/EN: không cần pass typography riêng cho từng thị trường — quan trọng cho team launch APAC.
Edit pipeline: Qwen-Image-Edit (20B MMDiT, Apache 2.0) cho semantic edit + style transfer + text rewriting trên ảnh có sẵn.
Nội dung social tốc độ cao: mỗi post Twitter/Threads/Facebook một hero ảnh đúng concept, không phải tìm stock photo gần đúng.

Limitations & pricing

Open weights base 2.0 chưa public tại launch — chỉ có Edit variant Apache 2.0.
Photoreal portrait / cinematic look vẫn thua FLUX.2.
Giá: ~$0.028–0.035 / image qua Qubrid, Together AI, Atlas Cloud.
Truy cập: Qwen Studio, Alibaba Cloud Model Studio API, hoặc third-party host.

What’s next

Đây không phải case lẻ — Alibaba đang đẩy hàng loạt cải tiến instruction-following xuyên suốt family. Qwen3.6-Max-Preview (Apr 20, 2026) cũng vừa đạt +2.8 trên ToolcallFormatIFBench cho text/agent. Open weights cho Qwen-Image-2.0 base là bước tiếp được trông đợi nhất, sẽ mở khoá self-host + fine-tune cho doanh nghiệp.

Nguồn: Qwen-Image Blog, Qubrid AI, Atlas Cloud, @Alibaba_Qwen.

Qwen-Image Vừa Bẻ Khoá "Sharper Instruction Following" — Và Đây Không Phải Screenshot

TL;DR

What’s new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What’s next

Tiếp tục lướt

Qwen-Image-2.0-Pro live: Alibaba leo top 10 Arena, đẩy text rendering đa ngôn ngữ lên tầm production

Chandra OCR 2: Mô hình OCR open-source 4B đánh bại Gemini, dots.ocr và olmOCR

DeepSeek-V4 ra mắt: 1M token context với 10% KV cache và 27% FLOPs của V3.2

DeepSeek V4 lộ diện: 1.6 nghìn tỷ tham số, context 1M token, rẻ hơn GPT-5.5 gấp 7 lần

OpenClaw v2026.4.23: gpt-image-2 qua Codex OAuth, OpenRouter image_generate, và hint thống nhất