- OpenAI vừa release gpt-image-2 — model image generation mạnh nhất từ trước tới nay, với text rendering near-perfect, resolution lên 2K, multi-reference editing và hỗ trợ đa ngôn ngữ.
- Có mặt ngay trong API và Codex.
TL;DR
OpenAI vừa tung gpt-image-2 — model image generation mới nhất và mạnh nhất của hãng — live ngay hôm nay trong API và Codex. Điểm nhấn: text rendering chính xác trên 99%, resolution lên 2K, multi-reference editing, và hỗ trợ tiếng Nhật, Hàn, Hindi, Bengali. Đây là người kế nhiệm chính thức cho DALL·E 2/3 (sẽ ngừng hoạt động ngày 12/05/2026).
Có gì mới?
gpt-image-2 được OpenAI định vị là "most capable image generation model yet, built for production-grade workflows". Thay vì là một update nhỏ, đây là bước nhảy qua 5 trục cùng lúc:
- Text rendering near-perfect — chữ trong ảnh không còn bị méo, xoắn
- Layout control tốt hơn cho poster, packaging, UI mockup
- Editing với nhiều ảnh reference trong cùng một request
- Resolution output lên tới 2K (2048×2048)
- Multilingual rendering cho các script non-Latin
Trong ChatGPT, model xuất hiện dưới tên Images 2.0. Tất cả user ChatGPT và Codex đều truy cập được từ hôm nay; paid tier mở khoá advanced outputs.
Vì sao quan trọng?
Text rendering là gót chân Achilles của mọi image model suốt 3 năm qua. DALL·E 3 hay gpt-image-1.5 vẫn đẻ ra menu với món "enchuita" thay vì "enchilada", poster với tag line xoắn như mì spaghetti. gpt-image-2 kéo accuracy từ ~90–95% lên trên 99% — đủ để dùng thẳng cho marketing asset, không cần retouch Photoshop.
Cộng với khả năng tự web search, sinh nhiều candidate và self-verify trước khi trả output, model bớt sai kiểu "AI artifact rõ rành rành" — outputs được mô tả là "immediately usable".
Với team marketing, điều này dịch ra ngôn ngữ kinh doanh: giảm round trip designer ↔ AI, giảm thời gian retouch, tăng tốc ship creative. Với dev trên Codex, nghĩa là generate mockup + concept art ngay trong loop code, không cần nhảy sang Figma hay Midjourney rồi quay lại.
Ở tầm vĩ mô, đây là lần đầu OpenAI có vũ khí image đủ mạnh để cạnh tranh trực diện với Google (Nano Banana Pro), Midjourney, và Black Forest Labs mà không phải đánh đổi — một trục cân bằng mới trong thị trường GenAI image đang rất đông đúc.
Technical facts
| Property | gpt-image-2 | gpt-image-1.5 |
|---|---|---|
| Text accuracy | 99%+ | ~90–95% |
| Max resolution | 2048×2048 (2K) | 1024×1024 |
| Aspect ratios | 1:1, 2:3, 3:2 | 1:1, 2:3, 3:2 |
| Multi-reference edit | Có (nhiều ảnh/request) | Hạn chế |
| Web search + self-verify | Có | Không |
| Yellow color cast | Đã fix | Tồn tại |
| Non-Latin scripts | JP, KR, HI, BN tốt | Yếu |
| Quality param | low / medium / high | low / medium / high |
Knowledge cutoff của model: tháng 12 năm 2025. Complex output như comic nhiều panel mất vài phút — chậm hơn text, nhưng chấp nhận được cho commercial workflow.
So với đối thủ
Trong blind test trên Arena, tester mô tả Google Nano Banana Pro bên cạnh gpt-image-2 trông "như DALL·E cũ" — gpt-image-2 thắng đồng thời ở realism, text rendering và world knowledge. So với Midjourney, leaked Arena results cho thấy gpt-image-2 dẫn ở text rendering, instruction-following, photorealism và world knowledge.
Ngữ cảnh: đây là lần đầu OpenAI có một image model vừa đẹp, vừa chữ chuẩn, vừa hiểu thế giới — trước đây luôn phải đánh đổi ít nhất một trục.
Use cases sáng giá
- Marketing creative: poster, ad, packaging, product label với typography chính xác 100%
- UI/UX mockup: landing page, app screen với text đọc được
- Comic & storytelling: comic nhiều panel với speech bubble chuẩn
- E-commerce: product placement compositing, virtual try-on với nhiều ảnh reference
- Localized content: asset marketing cho JP/KR/HI/BN mà không cần typesetter riêng
- Codex dev workflow: generate + iterate concept visual, game asset, frontend mockup ngay trong flow coding
- Presentation & social media: slide, graphic social, thumbnail YouTube (3:2) với headline chuẩn chính tả
- Brand identity draft: phác thảo logo concept, packaging variant, moodboard nhanh trước khi vào Figma
Điểm chung: các workflow từng phải qua designer chỉ để "sửa chữ" giờ có thể close-loop 100% bằng prompt.
Limitations & pricing
Pricing usage-based, scale theo quality tier (low/medium/high) và resolution — OpenAI không công bố bảng giá chi tiết tại launch. Tham chiếu gpt-image-1.5 baseline $0.009–$0.20/image, kỳ vọng high-tier gpt-image-2 ngang hoặc nhỉnh hơn đỉnh cũ.
Một vài hạn chế đáng lưu ý:
- Latency cao hơn text — comic đa panel tốn vài phút/output
- OpenAI chưa tiết lộ kiến trúc (diffusion hay autoregressive)
- Ở launch, chỉ 2K được xác nhận công khai; 4K mới ở tier leak internal
- Paid tier mới mở full advanced outputs — free user bị giới hạn
What's next
Deadline gần: 12/05/2026 DALL·E 2 và DALL·E 3 retire hoàn toàn. Nếu bạn còn pipeline chạy DALL·E, migrate trong 3 tuần tới là bắt buộc. OpenAI cũng đang mở rộng Codex plugin ecosystem để tận dụng gpt-image-2 cho dev workflows — expect tooling mới xuất hiện nhanh.
Nguồn: @OpenAIDevs, TechCrunch, Apiyi analysis.

