- Nous Research vừa nhét GPT Image 2.0 của OpenAI thành tool native trong Hermes Agent.
- Chạy `hermes update` rồi chọn model image qua `hermes tools` — ảnh chuẩn chữ 99%, 4K, tiếng Việt/Nhật/Hàn, không cần quản API key riêng.
TL;DR
Nous Research vừa thêm GPT Image 2.0 vào Hermes Agent như một native tool. Chỉ cần hermes update rồi hermes tools chọn model image. Không cần OpenAI API key riêng — subscription Nous Portal lo hết. Đi kèm là model image-gen mới nhất của OpenAI: text rendering >99%, độ phân giải lên 4K, multilingual chuẩn (Nhật/Hàn/Trung/Hindi/Bengali), và thinking mode tự verify output.

What's new
Ngày 22/04/2026, NousResearch thông báo trên X rằng GPT Image 2.0 giờ là tool native trong Hermes Agent CLI. Flow update đơn giản:
# 1. Update CLI
hermes update
# 2. Mở panel chọn tool và pick image model
hermes toolsTrước đó, Hermes v0.10.0 (ship ngày 16/04/2026) đã giới thiệu Nous Tool Gateway — gói tất cả công cụ (web search Firecrawl, image gen FLUX 2 Pro qua FAL, TTS OpenAI, browser automation) vào subscription Nous Portal. Update hôm nay đơn giản là cắm thêm gpt-image-2 vào danh sách image model có thể chọn, ngay sau khi OpenAI release GA model này hôm 21/04.
Why it matters
Hai vấn đề lớn nhất khi dev/marketer dùng AI image qua CLI: (1) chữ trong ảnh sai chính tả kinh niên, (2) mỗi tool phải cắm API key riêng, billing riêng, quota riêng. GPT Image 2.0 fix được #1 gần như triệt để, và Nous Tool Gateway fix #2. Kết quả: có thể sinh poster, UI mockup, social ad có chữ tiếng Việt chuẩn ngay trong terminal — workflow agentic, không context-switch sang web UI.
Với indie hacker và marketing team nhỏ, đây là bước đi quan trọng: thay vì dùng 3–4 tool riêng (ChatGPT cho ý tưởng, Midjourney/DALL-E cho ảnh, Figma cho layout), giờ có thể chạy 1 CLI agent tự orchestrate cả luồng. Hermes agent có thể đọc brief, sinh ảnh qua gpt-image-2, verify chữ đã chuẩn chưa, nếu sai tự retry — tất cả trong terminal.
Technical facts
- Text rendering accuracy >99% — fix hẳn lỗi kinh điển của DALL-E 3 ("enchuita", "churiros" là quá khứ).
- Resolution lên 4K qua API (2K trong ChatGPT UI), custom dimensions cho marketing asset.
- Thinking mode — model tự search web, verify output, sinh nhiều ảnh từ 1 prompt.
- Multilingual mới: Japanese, Korean, Chinese, Hindi, Bengali. Non-Latin scripts render ổn định.
- Knowledge cutoff: December 2025.
- Hermes v0.10.0: 180+ commits, gateway tích hợp 4 tool category (search / image / TTS / browser).
Comparison
| Tiêu chí | GPT Image 2.0 | FLUX 2 Pro | DALL-E 3 |
|---|---|---|---|
| Text accuracy | >99% | ~80% | ~50–70% |
| Max resolution | 4K | 2K | 1024px |
| Thinking / verify | Có | Không | Không |
| Non-Latin scripts | JP/KR/CN/HI/BN | Hạn chế | Yếu |
| Có trong Hermes | Mới (22/04) | Từ v0.10.0 | — |
FLUX 2 Pro vẫn mạnh ở photorealism và speed; gpt-image-2 thắng rõ ở instruction following và text. Hermes cho chọn cả hai — pick theo job.
Use cases
- Marketing asset đa ngôn ngữ: sinh poster/banner có chữ Việt chuẩn chính tả, swap language không vỡ layout.
- UI mockup nhanh: dev prototype screen có button text, tooltip, microcopy đúng từng pixel — không cần mở Figma.
- Storyboard / comic strip: multi-panel trong vài phút, consistent nhân vật qua thinking mode.
- Agentic workflow: Hermes agent tự quyết định khi nào cần ảnh, tự verify qua thinking mode, tự đăng lên đâu cần.
- Localization bulk: generate cùng 1 layout với 5 ngôn ngữ trong 1 prompt.
Limitations & pricing
- Cần Nous Portal paid subscription — đây là cách Hermes lo toàn bộ API key cho bạn.
- Thinking mode là tier paid của OpenAI; free user chỉ có base.
- API pricing của
gpt-image-2tùy quality/resolution, OpenAI chưa publish bảng giá cố định. - Knowledge cutoff December 2025 — những brand/meme sau mốc đó model không biết.
What's next
Roadmap Nous Research nhắm mở rộng Tool Gateway: thêm video generation (có thể là Veo 3 hoặc model nội bộ), code interpreter tương đương Code Sandbox, và MCP sharing giữa các agent trong cùng workspace. Với pace release 1–2 version/tháng kể từ Feb 2026 — v0.8.0 ngày 8/4, v0.10.0 ngày 16/4, và cập nhật gpt-image-2 hôm 22/4 — Hermes đang cạnh tranh trực tiếp với Claude Code và Codex CLI ở phân khúc agent CLI đa tool.
Câu hỏi mở cho cộng đồng: khi một CLI agent có thể tự sinh ảnh chuẩn text, tự browse, tự code, tự TTS — vai trò của dev/designer chuyển dịch thế nào? Có lẽ nặng về direction và review hơn là thao tác tay. Nếu bạn đang dùng Hermes, hãy thử prompt đơn giản như "sinh 5 bản poster giới thiệu sản phẩm X bằng tiếng Việt, 1200×630, tone sáng" và xem gpt-image-2 verify chữ chuẩn đến đâu.
Nguồn: NousResearch trên X, Hermes Agent v0.10.0 release, OpenAI — Introducing ChatGPT Images 2.0, TechCrunch.


