Codex + gpt-image-2: workflow viết PRD → vẽ UI → code SwiftUI "god-tier fidelity"

TL;DR

Ngày 21/4/2026, OpenAI ra gpt-image-2 (ChatGPT Images 2.0) — model image gen đầu tiên có reasoning, đứng #1 mọi bảng Image Arena với cách biệt kỷ lục +242 Elo trên text-to-image. Quan trọng hơn cho dev: model này được nhúng thẳng vào Codex. Một developer (@EEEEYHN) lập tức demo recipe đang viral: Codex viết PRD → gọi gpt-image-2 vẽ UI mockup → Codex đọc ảnh và implement SwiftUI. Anh mô tả độ trung khớp giữa mockup và code là "directly god-tier fidelity". Đây là lần đầu image gen đóng vai trò "frontend cho coding agent" ở cấp production.

What's new

gpt-image-2 không phải bản nâng cấp tiệm tiến — kiến trúc được viết lại từ đầu (Research Lead Boyuan Chen xác nhận). Điểm đột phá là tích hợp O-series reasoning: trước khi vẽ pixel đầu tiên, model lập kế hoạch composition, đếm object, kiểm tra ràng buộc prompt, tự verify output, và có thể search web giữa quá trình generate để lấy số liệu chính xác.

Hai mode: Instant (free, không reasoning) vs Thinking (Plus / Pro / Business / Enterprise, 3 mức low / medium / high).
Resolution: lên 2000 px cạnh dài (4K qua canvas tiles 3840×2160).
Aspect ratio: từ 3 lên 7 lựa chọn — từ 3:1 đến 1:3.
Batch: tối đa 10 ảnh/request, giữ nhất quán style + character.
Text rendering: ~99% chính xác đa ngôn ngữ (Cyrillic, CJK, Hindi, Bengali) — vốn là gót chân Achilles của diffusion model.
Knowledge cutoff: tháng 12/2025.

Ngày ra mắt, Figma, Canva, Adobe Firefly và fal đều công bố tích hợp — thị trường coi đây là infrastructure, không còn là feature trong app.

Why it matters: image gen trở thành frontend cho coding agent

Insight quan trọng nhất từ launch tuần này: image generation đang trở thành front-end cho coding agent.

Trước đây dev mô tả UI cho Claude Code hay Cursor bằng prose — agent đoán mò, fidelity thấp.

Với gpt-image-2 trong Codex, vòng lặp mới là: prose → mockup ảnh do reasoning model lên kế hoạch → code agent đọc ảnh đó như spec hình ảnh có thẩm quyền.

Vì gpt-image-2 đếm được button, căn được alignment, render text label đúng và sinh được nhiều state (loading / empty / populated / error) trong cùng một batch, agent code không còn phải đoán "ý designer". Nó chỉ việc dịch pixel sang component. Đó là lý do EEEEYHN gọi đây là "god-tier fidelity".

Technical facts

Spec	gpt-image-2
Resolution tối đa	2000 px cạnh dài (4K canvas)
Aspect ratio	7 lựa chọn (3:1 → 1:3)
Batch / request	up to 10 ảnh, giữ style consistency
Text accuracy	~99% multilingual
Reasoning	O-series, 3 mức low / medium / high
Web search mid-gen	Có (Thinking mode)
Knowledge cutoff	12/2025
Pricing image (API)	$8 / $2 / $30 per M tokens (in / cached / out)
Pricing /image (1024×1024 high)	~$0.21 (cao hơn gpt-image-1 ~60%)
Range thực tế / image	$0.04 – $0.35
Rate limit Tier 5	8M TPM / 250 IPM
Provenance	C2PA metadata, content filter

Comparison

Trên LM Arena, gpt-image-2 sweep mọi category trong 12 giờ đầu: 1512 text-to-image (+242 Elo so với #2 Google Nano Banana 2), 1513 single-image edit, 1464 multi-image edit. Khoảng cách +242 Elo tương đương ~80% xác suất thắng trong blind comparison — gap lớn nhất từng ghi nhận trên bảng này.

So với gpt-image-1 (3/2025) và gpt-image-1.5 (12/2025): version mới nhảy bậc trên gần như mọi chiều — reasoning, text, batch, resolution, aspect ratio, web search. OpenAI cũng tuyên bố sẽ khai tử DALL-E 2 và DALL-E 3 vào 12/5/2026, biến gpt-image-2 thành dòng production duy nhất.

So với Nano Banana 2 của Google: hai bên đều có reasoning + web search, nhưng OpenAI thắng ở text rendering và tích hợp Codex. Google thắng ở rate limit (cộng đồng dev than phiền: Gemini cho 5K RPM trong khi gpt-image-2 chỉ 250 IPM ở Tier 5). So với Midjourney / Imagen / Seedream: gpt-image-2 cạnh tranh ít bằng đẹp, nhiều bằng workflow embedding.

Use cases — recipe SwiftUI "god-tier" chi tiết

ChatGPT Images 2.0 interface với Codex trong sidebar

Recipe của EEEEYHN có thể tóm gọn 4 bước:

Codex viết PRD: prompt "build a [feature]" → Codex tạo PRD chi tiết (user stories, screens, states, edge cases) trong cùng workspace.
Codex gọi gpt-image-2: từ PRD, Codex prompt sang Image 2 vẽ UI mockup các screen chính. Vì cùng ChatGPT subscription, không cần API key riêng. Bật Thinking mode để gpt-image-2 lên kế hoạch layout, đếm element, kiểm tra spacing.
Codex đọc ảnh như spec hình. Multi-image batch (8–10) cho phép sinh đồng thời nhiều state — loading, empty, populated, error — trong một lần gọi.
Codex implement SwiftUI: dịch ảnh sang VStack, HStack, Button, modifier... có harness layer (vòng lặp tool-use, screenshot diff với xcrun simctl, refine iteration) để tự kiểm tra fidelity.

Use case khác cộng đồng đã chia sẻ: dense infographics có số liệu thật (Thinking mode search web), manga / storyboard giữ character consistency, marketing kit đa scene, magazine spread chữ đọc được, social asset family. Codex Labs (chương trình enterprise mới ra cùng ngày) hướng vào team non-engineer — dùng Codex như "superapp" để biên soạn brief, plan, checklist từ context rải rác.

Limitations & pricing

Text dài vẫn vỡ: rendering label ngắn ổn, paragraph quá vài trăm ký tự bắt đầu artifact.
Mặt người close-up còn artifact; logo brand chính xác hình học vẫn không reliable.
Style consistency drift giữa các session khác nhau (trong cùng 1 batch thì ổn).
Knowledge cutoff 12/2025: event / sản phẩm mới hơn cần Thinking mode + web search.
API rate limit thấp: 250 IPM Tier 5 vs Gemini 5K RPM — gây khó cho ai chạy production volume cao.
Codex plan OAuth key hiện chỉ work trên endpoint backend-api/codex/responses, các endpoint khác chưa.
Web search return không transparent trên Responses API — load như opaque token, không audit được.

Pricing: Free / Go có Instant mode. Thinking mode mở từ Plus ($20/tháng), Pro ($200/tháng), Business, Enterprise. API mở cho mọi dev đăng ký. Token: image $8 / $2 / $30 per M (in / cached / out), text $5 / $10. Mỗi ảnh 1024×1024 high quality ~$0.21.

What's next

Lịch quan trọng phía trước: 12/5/2026 DALL-E 2 và 3 chính thức tắt, gpt-image-2 thành dòng duy nhất. Enterprise và Edu tier sắp có Thinking mode (OpenAI confirm trên dev forum 22/4). Codex for Mac vừa được làm lại trên nền Sky Software acquisition — agentic computer use, in-app browser dựa trên ChatGPT Atlas, image gen built-in. Cộng với Codex Labs, OpenAI rõ ràng đang biến Codex thành "superapp cho builder", không chỉ dành dev viết code.

Điều cần theo dõi: rate limit có nâng theo áp lực cộng đồng không, web search transparency trên Responses API, và bao giờ image gen mở rộng sang video / animation. Với recipe Codex + gpt-image-2 + SwiftUI đang viral, kỳ vọng tuần tới sẽ thấy hàng loạt template "PRD → mockup → code" xuất hiện cho React Native, Flutter, web component.

Nguồn: OpenAI, OpenAI Developer Community, TestingCatalog, The Next Web, 9to5Mac, @EEEEYHN trên X.