gpt-image-2 ra mắt: Text rendering 99%, 2K resolution, live trong API và Codex hôm nay

TL;DR

OpenAI vừa tung gpt-image-2 — model image generation mới nhất và mạnh nhất của hãng — live ngay hôm nay trong API và Codex. Điểm nhấn: text rendering chính xác trên 99%, resolution lên 2K, multi-reference editing, và hỗ trợ tiếng Nhật, Hàn, Hindi, Bengali. Đây là người kế nhiệm chính thức cho DALL·E 2/3 (sẽ ngừng hoạt động ngày 12/05/2026).

Có gì mới?

gpt-image-2 được OpenAI định vị là "most capable image generation model yet, built for production-grade workflows". Thay vì là một update nhỏ, đây là bước nhảy qua 5 trục cùng lúc:

Text rendering near-perfect — chữ trong ảnh không còn bị méo, xoắn
Layout control tốt hơn cho poster, packaging, UI mockup
Editing với nhiều ảnh reference trong cùng một request
Resolution output lên tới 2K (2048×2048)
Multilingual rendering cho các script non-Latin

Trong ChatGPT, model xuất hiện dưới tên Images 2.0. Tất cả user ChatGPT và Codex đều truy cập được từ hôm nay; paid tier mở khoá advanced outputs.

Vì sao quan trọng?

Text rendering là gót chân Achilles của mọi image model suốt 3 năm qua. DALL·E 3 hay gpt-image-1.5 vẫn đẻ ra menu với món "enchuita" thay vì "enchilada", poster với tag line xoắn như mì spaghetti. gpt-image-2 kéo accuracy từ ~90–95% lên trên 99% — đủ để dùng thẳng cho marketing asset, không cần retouch Photoshop.

Cộng với khả năng tự web search, sinh nhiều candidate và self-verify trước khi trả output, model bớt sai kiểu "AI artifact rõ rành rành" — outputs được mô tả là "immediately usable".

Với team marketing, điều này dịch ra ngôn ngữ kinh doanh: giảm round trip designer ↔ AI, giảm thời gian retouch, tăng tốc ship creative. Với dev trên Codex, nghĩa là generate mockup + concept art ngay trong loop code, không cần nhảy sang Figma hay Midjourney rồi quay lại.

Ở tầm vĩ mô, đây là lần đầu OpenAI có vũ khí image đủ mạnh để cạnh tranh trực diện với Google (Nano Banana Pro), Midjourney, và Black Forest Labs mà không phải đánh đổi — một trục cân bằng mới trong thị trường GenAI image đang rất đông đúc.

Technical facts

Property	gpt-image-2	gpt-image-1.5
Text accuracy	99%+	~90–95%
Max resolution	2048×2048 (2K)	1024×1024
Aspect ratios	1:1, 2:3, 3:2	1:1, 2:3, 3:2
Multi-reference edit	Có (nhiều ảnh/request)	Hạn chế
Web search + self-verify	Có	Không
Yellow color cast	Đã fix	Tồn tại
Non-Latin scripts	JP, KR, HI, BN tốt	Yếu
Quality param	low / medium / high	low / medium / high

Knowledge cutoff của model: tháng 12 năm 2025. Complex output như comic nhiều panel mất vài phút — chậm hơn text, nhưng chấp nhận được cho commercial workflow.

So với đối thủ

Trong blind test trên Arena, tester mô tả Google Nano Banana Pro bên cạnh gpt-image-2 trông "như DALL·E cũ" — gpt-image-2 thắng đồng thời ở realism, text rendering và world knowledge. So với Midjourney, leaked Arena results cho thấy gpt-image-2 dẫn ở text rendering, instruction-following, photorealism và world knowledge.

Ngữ cảnh: đây là lần đầu OpenAI có một image model vừa đẹp, vừa chữ chuẩn, vừa hiểu thế giới — trước đây luôn phải đánh đổi ít nhất một trục.

Use cases sáng giá

Marketing creative: poster, ad, packaging, product label với typography chính xác 100%
UI/UX mockup: landing page, app screen với text đọc được
Comic & storytelling: comic nhiều panel với speech bubble chuẩn
E-commerce: product placement compositing, virtual try-on với nhiều ảnh reference
Localized content: asset marketing cho JP/KR/HI/BN mà không cần typesetter riêng
Codex dev workflow: generate + iterate concept visual, game asset, frontend mockup ngay trong flow coding
Presentation & social media: slide, graphic social, thumbnail YouTube (3:2) với headline chuẩn chính tả
Brand identity draft: phác thảo logo concept, packaging variant, moodboard nhanh trước khi vào Figma

Điểm chung: các workflow từng phải qua designer chỉ để "sửa chữ" giờ có thể close-loop 100% bằng prompt.

Limitations & pricing

Pricing usage-based, scale theo quality tier (low/medium/high) và resolution — OpenAI không công bố bảng giá chi tiết tại launch. Tham chiếu gpt-image-1.5 baseline $0.009–$0.20/image, kỳ vọng high-tier gpt-image-2 ngang hoặc nhỉnh hơn đỉnh cũ.

Một vài hạn chế đáng lưu ý:

Latency cao hơn text — comic đa panel tốn vài phút/output
OpenAI chưa tiết lộ kiến trúc (diffusion hay autoregressive)
Ở launch, chỉ 2K được xác nhận công khai; 4K mới ở tier leak internal
Paid tier mới mở full advanced outputs — free user bị giới hạn

What's next

Deadline gần: 12/05/2026 DALL·E 2 và DALL·E 3 retire hoàn toàn. Nếu bạn còn pipeline chạy DALL·E, migrate trong 3 tuần tới là bắt buộc. OpenAI cũng đang mở rộng Codex plugin ecosystem để tận dụng gpt-image-2 cho dev workflows — expect tooling mới xuất hiện nhanh.

Nguồn: @OpenAIDevs, TechCrunch, Apiyi analysis.

gpt-image-2 ra mắt: Text rendering 99%, 2K resolution, live trong API và Codex hôm nay

TL;DR

Có gì mới?

Vì sao quan trọng?

Technical facts

So với đối thủ

Use cases sáng giá

Limitations & pricing

What's next

Tiếp tục lướt

Codex + gpt-image-2: workflow viết PRD → vẽ UI → code SwiftUI "god-tier fidelity"

acpx 0.6.0: Điều khiển Claude và Codex qua một giao thức duy nhất

Qwen-Image Vừa Bẻ Khoá "Sharper Instruction Following" — Và Đây Không Phải Screenshot

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

Chandra OCR 2: Mô hình OCR open-source 4B đánh bại Gemini, dots.ocr và olmOCR