OpenRouter ghép GPT-5.4 với GPT Image 2: một endpoint, vừa reasoning vừa sinh ảnh 2K

TL;DR

Ngày 21/4/2026, OpenAI công bố ChatGPT Images 2.0 (API id: gpt-image-2) — model sinh ảnh đầu tiên của OpenAI có khả năng reasoning tích hợp. Trong 12 giờ, nó chiếm #1 Image Arena ở mọi hạng mục với cách biệt +242 điểm, lớn nhất từng ghi nhận trên leaderboard này. Cùng ngày, OpenRouter ra mắt openai/gpt-5.4-image-2, ghép GPT-5.4 (1M token context) với Image 2 vào một endpoint multimodal duy nhất — 272K context, $8/M input, $15/M output. Bạn gửi 1 request, model vừa suy luận, code, vừa xuất ảnh base64 trong cùng message.

Banner chính thức ChatGPT Images 2.0 của OpenAI

What's new

OpenRouter đóng gói hai model frontier của OpenAI vào fusion endpoint. Trước đây bạn phải gọi tách: một call GPT-5.4 để reasoning / viết prompt, call thứ hai tới gpt-image-2 để sinh ảnh. Giờ đây với openai/gpt-5.4-image-2:

Một request, khai báo modalities: ["image", "text"] — model trả về vừa text vừa ảnh (base64 data URL) trong cùng assistant message.
GPT-5.4 đảm nhiệm phần reasoning, coding, đọc document dài (context 922K input, 128K output).
GPT Image 2 đảm nhiệm phần visual: 2K resolution, aspect 3:1 tới 1:3, text rendering đa ngôn ngữ, batch 8 panel nhất quán nhân vật/đồ vật.
Tầm giá thống nhất theo token: $8/M input, $15/M output, $30/M image output, $2/M cache read. Throughput trung bình 51 tok/s, first-token latency 0.49s.

Với dev, đây là bước dọn đường để xây agent "vừa viết code, vừa tự sinh mockup UI" hoặc "vừa đọc dataset, vừa xuất infographic" trong một lượt gọi duy nhất.

Why it matters

Hai năm trước, hỏi bất kỳ model ảnh nào vẽ menu nhà hàng đều cho ra "enchuita", "burrto", "margartas". GPT Image 2 giờ xuất menu in được luôn: tên món đúng chính tả, giá định dạng chuẩn, multi-ngôn ngữ.

Menu nhà hàng Mexico do ChatGPT Images 2.0 sinh ra với text chính xác

Điểm đáng chú ý hơn là multi-ngôn ngữ Latin + non-Latin: Nhật, Hàn, Hindi, Bengali, Ả-rập được render đúng typography. Với agency chạy campaign localized cho thị trường Ấn Độ, Đông Á, MENA, đây là lần đầu có thể sản xuất mockup billboard đúng chữ mà không cần designer review từng ký tự.

Technical facts

Property	GPT Image 2 / gpt-5.4-image-2
Image Arena rank (sau 12h)	#1 mọi category, cách biệt +242 điểm
Resolution tối đa	2K, aspect 3:1 → 1:3
Batch size (Thinking mode)	Tối đa 8 ảnh/prompt, giữ character & palette nhất quán
Multi-ngôn ngữ	Latin + Japanese, Korean, Hindi, Bengali, Arabic
Native capability mới	Web search, layout reasoning, self-verification (Thinking mode)
Context (OpenRouter endpoint)	272K token tổng, 128K output
Throughput / Latency	51 tok/s avg, 0.49s first-token, ~98s E2E có ảnh
Knowledge cutoff	December 2025
Codex integration	Có — native trong workspace Codex (3M dev/tuần)

Comparison

OpenAI không phải nhà duy nhất chơi ở hạng nặng. Bảng dưới tổng hợp thế mạnh từng model theo khảo sát production:

So sánh gpt-image-2 vs Midjourney v8 vs Nano Banana 2

vs Midjourney v8: GPT Image 2 thắng ở text rendering, multi-ngôn ngữ, public API, batch generation, tích hợp Codex. Midjourney vẫn giữ lợi thế ở thẩm mỹ thuần / editorial và không có public API.
vs Nano Banana 2 (Google): NB2 rẻ hơn nhiều ($0.02/ảnh, 1-3s/ảnh). Khoảng cách photorealism đã gần san phẳng. Chọn NB2 cho "thumbnail factory" 10.000 ảnh/tháng; chọn gpt-image-2 khi cần text chuẩn hoặc batch nhất quán.
vs GPT Image 1.5 / DALL-E 3: Thế hệ cũ thường xuyên sai chính tả. DALL-E 2 & 3 sẽ bị khai tử ngày 12/5/2026 — code cũ phải migrate sang gpt-image-2 trước mốc đó.

Instant mode vs Thinking mode

OpenAI chia model thành hai tier truy cập. Lựa chọn này ảnh hưởng trực tiếp tới cost & UX:

Bảng so sánh Instant Mode vs Thinking Mode

Instant mode — tất cả user ChatGPT gồm free tier. Nhanh, rẻ, đủ cho ~80% use case dev: social graphics, UI prototype đơn, product thumbnail.
Thinking mode — chỉ Plus ($20/mo), Pro ($200/mo), Business, Enterprise. Mở khoá web search, batch 8 ảnh, layout reasoning, self-verify. Latency thêm 15-30s mỗi request — chỉ hợp batch bất đồng bộ (content calendar, storyboard draft), không hợp real-time UI.
Qua API, gpt-image-2 available cho mọi dev theo token billing, không cần subscription tier ChatGPT.

Use cases

Marketing asset ở scale: một prompt → Instagram 1:1 + Twitter 3:1 + LinkedIn header + Facebook OG, branding thống nhất. Designer 2-3 giờ → 1 API call. Agency 10+ client hưởng lợi lớn nhất.
Localization đa khu vực: billboard mockup chữ Hindi/Bengali/Nhật/Hàn đúng typography, bỏ vòng review designer riêng. Thay đổi kinh tế sản xuất regional campaign.
Infographic từ dataset: Thinking mode reasoning qua structured data, lên layout, xuất explainer graphic với label chính xác. Ed-tech, docs team, content publisher.
Storyboard / manga / cutscene: 8 panel/prompt giữ nhân vật và palette. Nhà xuất bản sách thiếu nhi, indie game studio, visual novelist có "primitive" mới cho first draft.
UI mockup trong Codex: wireframe, icon set, component direction xuất ngay trong workspace dev — không API key riêng, không context switch.

Limitations & pricing

Giới hạn thực tế:

Cutoff kiến thức tháng 12/2025 — vẽ sai sự kiện / sản phẩm / nhân vật xuất hiện sau đó. Thinking mode có thể search web bù lại phần nào.
Brand logo không pixel-perfect — đôi lúc trả về phiên bản logo cũ từ trước redesign. Human review bắt buộc cho brand-critical work.
Thinking latency 15-30s — không cho real-time.
Không công bố kiến trúc — dev không biết là diffusion hay autoregressive, khó plan fine-tune / inference optimize.

Pricing OpenRouter gpt-5.4-image-2: $8/M input, $15/M output, $30/M image output, $2/M cache read.

Pricing OpenAI direct gpt-image-2 ở 1024×1024:

Giá ước tính mỗi ảnh 1024x1024 theo quality tier

Lưu ý: edit request có reference image luôn bị tính rate high-fidelity ($8/M input, $32/M output) bất kể tham số quality, nên workflow edit-heavy đắt hơn generation-only.

What's next

Ba điều đáng theo dõi trong 90 ngày tới. Một, hệ sinh thái Codex quanh gpt-image-2 nhiều khả năng vượt Midjourney & Google về momentum (3M dev/tuần, SDK Python phổ biến nhất). Hai, mốc 12/5/2026 là hạn chót migrate khỏi DALL-E 3. Ba, Thinking mode đang gated theo subscription để OpenAI quản compute — rất có thể mở rộng dần khi capacity tăng.

Với builder, bước hợp lý nhất lúc này: thử Instant mode qua API cho 80% workflow, dùng OpenRouter endpoint khi cần vừa reasoning dài vừa sinh ảnh trong một call, và giữ một plan B (Nano Banana 2 hoặc Midjourney) cho những yêu cầu mà gpt-image-2 còn yếu.

Nguồn: OpenAI, OpenRouter, TechCrunch, 9to5Mac, BuildFastWithAI, @OpenRouter.

OpenRouter ghép GPT-5.4 với GPT Image 2: một endpoint, vừa reasoning vừa sinh ảnh 2K

TL;DR

What's new

Why it matters

Technical facts

Comparison

Instant mode vs Thinking mode

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Codex + gpt-image-2: workflow viết PRD → vẽ UI → code SwiftUI "god-tier fidelity"

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

GPT-5.5 truy bug Worker đến comment 'TODO(perf)' Kenton Varda viết 6 năm trước

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới

GPT-5.4 vừa giúp đập thủng Same-Origin Policy của Safari