Hermes Agent thêm GPT Image 2.0 native: gen ảnh chuẩn chữ ngay trong terminal

TL;DR

Nous Research vừa thêm GPT Image 2.0 vào Hermes Agent như một native tool. Chỉ cần hermes update rồi hermes tools chọn model image. Không cần OpenAI API key riêng — subscription Nous Portal lo hết. Đi kèm là model image-gen mới nhất của OpenAI: text rendering >99%, độ phân giải lên 4K, multilingual chuẩn (Nhật/Hàn/Trung/Hindi/Bengali), và thinking mode tự verify output.

What's new

Ngày 22/04/2026, NousResearch thông báo trên X rằng GPT Image 2.0 giờ là tool native trong Hermes Agent CLI. Flow update đơn giản:

# 1. Update CLI
hermes update

# 2. Mở panel chọn tool và pick image model
hermes tools

Trước đó, Hermes v0.10.0 (ship ngày 16/04/2026) đã giới thiệu Nous Tool Gateway — gói tất cả công cụ (web search Firecrawl, image gen FLUX 2 Pro qua FAL, TTS OpenAI, browser automation) vào subscription Nous Portal. Update hôm nay đơn giản là cắm thêm gpt-image-2 vào danh sách image model có thể chọn, ngay sau khi OpenAI release GA model này hôm 21/04.

Why it matters

Hai vấn đề lớn nhất khi dev/marketer dùng AI image qua CLI: (1) chữ trong ảnh sai chính tả kinh niên, (2) mỗi tool phải cắm API key riêng, billing riêng, quota riêng. GPT Image 2.0 fix được #1 gần như triệt để, và Nous Tool Gateway fix #2. Kết quả: có thể sinh poster, UI mockup, social ad có chữ tiếng Việt chuẩn ngay trong terminal — workflow agentic, không context-switch sang web UI.

Với indie hacker và marketing team nhỏ, đây là bước đi quan trọng: thay vì dùng 3–4 tool riêng (ChatGPT cho ý tưởng, Midjourney/DALL-E cho ảnh, Figma cho layout), giờ có thể chạy 1 CLI agent tự orchestrate cả luồng. Hermes agent có thể đọc brief, sinh ảnh qua gpt-image-2, verify chữ đã chuẩn chưa, nếu sai tự retry — tất cả trong terminal.

Technical facts

Text rendering accuracy >99% — fix hẳn lỗi kinh điển của DALL-E 3 ("enchuita", "churiros" là quá khứ).
Resolution lên 4K qua API (2K trong ChatGPT UI), custom dimensions cho marketing asset.
Thinking mode — model tự search web, verify output, sinh nhiều ảnh từ 1 prompt.
Multilingual mới: Japanese, Korean, Chinese, Hindi, Bengali. Non-Latin scripts render ổn định.
Knowledge cutoff: December 2025.
Hermes v0.10.0: 180+ commits, gateway tích hợp 4 tool category (search / image / TTS / browser).

Comparison

Tiêu chí	GPT Image 2.0	FLUX 2 Pro	DALL-E 3
Text accuracy	>99%	~80%	~50–70%
Max resolution	4K	2K	1024px
Thinking / verify	Có	Không	Không
Non-Latin scripts	JP/KR/CN/HI/BN	Hạn chế	Yếu
Có trong Hermes	Mới (22/04)	Từ v0.10.0	—

FLUX 2 Pro vẫn mạnh ở photorealism và speed; gpt-image-2 thắng rõ ở instruction following và text. Hermes cho chọn cả hai — pick theo job.

Use cases

Marketing asset đa ngôn ngữ: sinh poster/banner có chữ Việt chuẩn chính tả, swap language không vỡ layout.
UI mockup nhanh: dev prototype screen có button text, tooltip, microcopy đúng từng pixel — không cần mở Figma.
Storyboard / comic strip: multi-panel trong vài phút, consistent nhân vật qua thinking mode.
Agentic workflow: Hermes agent tự quyết định khi nào cần ảnh, tự verify qua thinking mode, tự đăng lên đâu cần.
Localization bulk: generate cùng 1 layout với 5 ngôn ngữ trong 1 prompt.

Limitations & pricing

Cần Nous Portal paid subscription — đây là cách Hermes lo toàn bộ API key cho bạn.
Thinking mode là tier paid của OpenAI; free user chỉ có base.
API pricing của gpt-image-2 tùy quality/resolution, OpenAI chưa publish bảng giá cố định.
Knowledge cutoff December 2025 — những brand/meme sau mốc đó model không biết.

What's next

Roadmap Nous Research nhắm mở rộng Tool Gateway: thêm video generation (có thể là Veo 3 hoặc model nội bộ), code interpreter tương đương Code Sandbox, và MCP sharing giữa các agent trong cùng workspace. Với pace release 1–2 version/tháng kể từ Feb 2026 — v0.8.0 ngày 8/4, v0.10.0 ngày 16/4, và cập nhật gpt-image-2 hôm 22/4 — Hermes đang cạnh tranh trực tiếp với Claude Code và Codex CLI ở phân khúc agent CLI đa tool.

Câu hỏi mở cho cộng đồng: khi một CLI agent có thể tự sinh ảnh chuẩn text, tự browse, tự code, tự TTS — vai trò của dev/designer chuyển dịch thế nào? Có lẽ nặng về direction và review hơn là thao tác tay. Nếu bạn đang dùng Hermes, hãy thử prompt đơn giản như "sinh 5 bản poster giới thiệu sản phẩm X bằng tiếng Việt, 1200×630, tone sáng" và xem gpt-image-2 verify chữ chuẩn đến đâu.

Via: NousResearch, OpenAI Introducing ChatGPT Images 2.0, TechCrunch.