- OpenAI ra GPT Image 2 ngày 21/4/2026 và chiếm #1 Image Arena với cách biệt +242 điểm chỉ sau 12 giờ.
- Cùng ngày, OpenRouter tung openai/gpt-5.4-image-2 — một API duy nhất kết hợp reasoning của GPT-5.4 với khả năng sinh ảnh 2K có text chuẩn, multi-ngôn ngữ, và batch 8 panel nhất quán.
TL;DR
Ngày 21/4/2026, OpenAI công bố ChatGPT Images 2.0 (API id: gpt-image-2) — model sinh ảnh đầu tiên của OpenAI có khả năng reasoning tích hợp. Trong 12 giờ, nó chiếm #1 Image Arena ở mọi hạng mục với cách biệt +242 điểm, lớn nhất từng ghi nhận trên leaderboard này. Cùng ngày, OpenRouter ra mắt openai/gpt-5.4-image-2, ghép GPT-5.4 (1M token context) với Image 2 vào một endpoint multimodal duy nhất — 272K context, $8/M input, $15/M output. Bạn gửi 1 request, model vừa suy luận, code, vừa xuất ảnh base64 trong cùng message.

What's new
OpenRouter đóng gói hai model frontier của OpenAI vào fusion endpoint. Trước đây bạn phải gọi tách: một call GPT-5.4 để reasoning / viết prompt, call thứ hai tới gpt-image-2 để sinh ảnh. Giờ đây với openai/gpt-5.4-image-2:
- Một request, khai báo
modalities: ["image", "text"]— model trả về vừa text vừa ảnh (base64 data URL) trong cùng assistant message. - GPT-5.4 đảm nhiệm phần reasoning, coding, đọc document dài (context 922K input, 128K output).
- GPT Image 2 đảm nhiệm phần visual: 2K resolution, aspect 3:1 tới 1:3, text rendering đa ngôn ngữ, batch 8 panel nhất quán nhân vật/đồ vật.
- Tầm giá thống nhất theo token: $8/M input, $15/M output, $30/M image output, $2/M cache read. Throughput trung bình 51 tok/s, first-token latency 0.49s.
Với dev, đây là bước dọn đường để xây agent "vừa viết code, vừa tự sinh mockup UI" hoặc "vừa đọc dataset, vừa xuất infographic" trong một lượt gọi duy nhất.
Why it matters
Hai năm trước, hỏi bất kỳ model ảnh nào vẽ menu nhà hàng đều cho ra "enchuita", "burrto", "margartas". GPT Image 2 giờ xuất menu in được luôn: tên món đúng chính tả, giá định dạng chuẩn, multi-ngôn ngữ.

Điểm đáng chú ý hơn là multi-ngôn ngữ Latin + non-Latin: Nhật, Hàn, Hindi, Bengali, Ả-rập được render đúng typography. Với agency chạy campaign localized cho thị trường Ấn Độ, Đông Á, MENA, đây là lần đầu có thể sản xuất mockup billboard đúng chữ mà không cần designer review từng ký tự.
Technical facts
| Property | GPT Image 2 / gpt-5.4-image-2 |
|---|---|
| Image Arena rank (sau 12h) | #1 mọi category, cách biệt +242 điểm |
| Resolution tối đa | 2K, aspect 3:1 → 1:3 |
| Batch size (Thinking mode) | Tối đa 8 ảnh/prompt, giữ character & palette nhất quán |
| Multi-ngôn ngữ | Latin + Japanese, Korean, Hindi, Bengali, Arabic |
| Native capability mới | Web search, layout reasoning, self-verification (Thinking mode) |
| Context (OpenRouter endpoint) | 272K token tổng, 128K output |
| Throughput / Latency | 51 tok/s avg, 0.49s first-token, ~98s E2E có ảnh |
| Knowledge cutoff | December 2025 |
| Codex integration | Có — native trong workspace Codex (3M dev/tuần) |
Comparison
OpenAI không phải nhà duy nhất chơi ở hạng nặng. Bảng dưới tổng hợp thế mạnh từng model theo khảo sát production:

- vs Midjourney v8: GPT Image 2 thắng ở text rendering, multi-ngôn ngữ, public API, batch generation, tích hợp Codex. Midjourney vẫn giữ lợi thế ở thẩm mỹ thuần / editorial và không có public API.
- vs Nano Banana 2 (Google): NB2 rẻ hơn nhiều ($0.02/ảnh, 1-3s/ảnh). Khoảng cách photorealism đã gần san phẳng. Chọn NB2 cho "thumbnail factory" 10.000 ảnh/tháng; chọn gpt-image-2 khi cần text chuẩn hoặc batch nhất quán.
- vs GPT Image 1.5 / DALL-E 3: Thế hệ cũ thường xuyên sai chính tả. DALL-E 2 & 3 sẽ bị khai tử ngày 12/5/2026 — code cũ phải migrate sang
gpt-image-2trước mốc đó.
Instant mode vs Thinking mode
OpenAI chia model thành hai tier truy cập. Lựa chọn này ảnh hưởng trực tiếp tới cost & UX:

- Instant mode — tất cả user ChatGPT gồm free tier. Nhanh, rẻ, đủ cho ~80% use case dev: social graphics, UI prototype đơn, product thumbnail.
- Thinking mode — chỉ Plus ($20/mo), Pro ($200/mo), Business, Enterprise. Mở khoá web search, batch 8 ảnh, layout reasoning, self-verify. Latency thêm 15-30s mỗi request — chỉ hợp batch bất đồng bộ (content calendar, storyboard draft), không hợp real-time UI.
- Qua API,
gpt-image-2available cho mọi dev theo token billing, không cần subscription tier ChatGPT.
Use cases
- Marketing asset ở scale: một prompt → Instagram 1:1 + Twitter 3:1 + LinkedIn header + Facebook OG, branding thống nhất. Designer 2-3 giờ → 1 API call. Agency 10+ client hưởng lợi lớn nhất.
- Localization đa khu vực: billboard mockup chữ Hindi/Bengali/Nhật/Hàn đúng typography, bỏ vòng review designer riêng. Thay đổi kinh tế sản xuất regional campaign.
- Infographic từ dataset: Thinking mode reasoning qua structured data, lên layout, xuất explainer graphic với label chính xác. Ed-tech, docs team, content publisher.
- Storyboard / manga / cutscene: 8 panel/prompt giữ nhân vật và palette. Nhà xuất bản sách thiếu nhi, indie game studio, visual novelist có "primitive" mới cho first draft.
- UI mockup trong Codex: wireframe, icon set, component direction xuất ngay trong workspace dev — không API key riêng, không context switch.
Limitations & pricing
Giới hạn thực tế:
- Cutoff kiến thức tháng 12/2025 — vẽ sai sự kiện / sản phẩm / nhân vật xuất hiện sau đó. Thinking mode có thể search web bù lại phần nào.
- Brand logo không pixel-perfect — đôi lúc trả về phiên bản logo cũ từ trước redesign. Human review bắt buộc cho brand-critical work.
- Thinking latency 15-30s — không cho real-time.
- Không công bố kiến trúc — dev không biết là diffusion hay autoregressive, khó plan fine-tune / inference optimize.
Pricing OpenRouter gpt-5.4-image-2: $8/M input, $15/M output, $30/M image output, $2/M cache read.
Pricing OpenAI direct gpt-image-2 ở 1024×1024:

Lưu ý: edit request có reference image luôn bị tính rate high-fidelity ($8/M input, $32/M output) bất kể tham số quality, nên workflow edit-heavy đắt hơn generation-only.
What's next
Ba điều đáng theo dõi trong 90 ngày tới. Một, hệ sinh thái Codex quanh gpt-image-2 nhiều khả năng vượt Midjourney & Google về momentum (3M dev/tuần, SDK Python phổ biến nhất). Hai, mốc 12/5/2026 là hạn chót migrate khỏi DALL-E 3. Ba, Thinking mode đang gated theo subscription để OpenAI quản compute — rất có thể mở rộng dần khi capacity tăng.
Với builder, bước hợp lý nhất lúc này: thử Instant mode qua API cho 80% workflow, dùng OpenRouter endpoint khi cần vừa reasoning dài vừa sinh ảnh trong một call, và giữ một plan B (Nano Banana 2 hoặc Midjourney) cho những yêu cầu mà gpt-image-2 còn yếu.
Nguồn: OpenAI, OpenRouter, TechCrunch, 9to5Mac, BuildFastWithAI, @OpenRouter.


