- Hermes Agent v0.18.0 của Nous Research cho phép biến đổi ảnh nguồn kết hợp tối đa 16 ảnh tham chiếu qua OpenAI/Codex, không cần API key riêng nếu đã có ChatGPT Plus.
- Cùng bản này, 100% P0 và P1 bugs được clear: 692 issues trong 12 ngày.
- Mixture-of-Agents giờ là selectable model, hiện reasoning của từng model trước khi tổng hợp.
TL;DR
- Hermes Agent v0.18.0 của Nous Research bổ sung chức năng biến đổi ảnh nguồn kết hợp tối đa 16 ảnh tham chiếu qua OpenAI/Codex - không cần API key riêng nếu đã có ChatGPT Plus.
- Cơ chế: truyền
image_url(ảnh nguồn) +reference_image_urls(array ảnh style/composition) vàoimage_generatetool, backend tự route sang editing endpoint. - Cùng bản này: 100% P0/P1 bugs cleared (692 items trong 12 ngày), Mixture-of-Agents thành first-class selectable model.
- Cài đặt:
pip install hermes-agenthoặc tải desktop app tại hermes-agent.nousresearch.com.
Hermes Agent là gì
Hermes Agent là AI agent mã nguồn mở (MIT) do Nous Research phát triển - lab đứng sau các model Hermes, Nomos, Psyche. Điểm khác biệt cốt lõi: Hermes không phải coding copilot gắn vào IDE hay chatbot wrapper, mà là autonomous agent tự cải thiện theo thời gian. Agent này chạy được ở mọi nơi: $5 VPS, GPU cluster, serverless (Daytona, Modal), thậm chí Android qua Termux.
Giao tiếp qua 22+ nền tảng: Telegram, Discord, Slack, WhatsApp, iMessage, WeChat, và nhiều hơn nữa. Một Nous Portal subscription là có ngay Tool Gateway bao gồm web search, image generation, TTS, và browser automation - không cần quản lý API key riêng lẻ.
Điểm đặc biệt nhất là closed learning loop: agent xây dựng memory database qua từng session, tự tạo reusable skill từ kinh nghiệm, và chạy background review sau mỗi lượt để quyết định cái gì cần ghi nhớ. Càng dùng nhiều, Hermes càng hiểu bạn hơn.
Reference Image Editing - AI transform theo style
Phiên bản v0.17.0 đã mở đường với khả năng image-to-image editing cơ bản: truyền ảnh nguồn kèm prompt, backend route sang editing endpoint thay vì generation. Đến v0.18.0, khả năng này được đẩy xa hơn với reference image editing - biến đổi ảnh nguồn dựa trên phong cách hoặc bố cục từ nhiều ảnh tham chiếu cùng lúc.
Ý tưởng thực tế: thay vì mô tả bằng text ("làm ảnh này trông như ảnh chụp ngoài trời vào buổi chiều vàng"), bạn thả thẳng 2-16 ảnh tham chiếu để AI hiểu chính xác bạn muốn gì về ánh sáng, màu sắc, bố cục. Kết quả chính xác và nhất quán hơn nhiều so với mô tả thuần văn bản.
Tính năng này đặc biệt hữu ích cho các workflow sáng tạo lặp đi lặp lại: marketing cần đồng nhất visual style qua nhiều ảnh sản phẩm, hoặc designer muốn biến đổi nhiều ảnh thô theo cùng aesthetic mà không mô tả lại từ đầu mỗi lần.
Cơ chế hoạt động
Tool image_generate nhận hai tham số mới để kích hoạt chế độ editing:
image_url: ảnh nguồn cần biến đổi (public URL hoặc đường dẫn local)reference_image_urls: mảng ảnh tham chiếu về style hoặc composition (giới hạn tùy backend)
Khi bạn truyền image_url kèm prompt, backend tự động phát hiện và route sang editing endpoint thay vì generation endpoint thông thường - cùng cơ chế mà video_generate dùng để xử lý image-to-video. Omit image_url thì trở về text-to-image thuần.
Điểm thông minh: agent biết trước model nào hỗ trợ editing thông qua tool description được inject ở runtime. Nếu bạn chọn model text-to-image thuần (z-image/turbo, recraft, krea), tool sẽ báo lỗi rõ ràng và gợi ý chuyển sang edit-capable model - không bị silent fail.
Backend hỗ trợ và giới hạn reference
| Backend | Image-to-image | Reference cap | Cơ chế |
|---|---|---|---|
| OpenAI (Codex auth) | Có | tối đa 16 | Codex Responses API |
| OpenAI (API key) | Có | tối đa 16 | images.edit() |
| Krea | Có | tối đa 10 | reference-guided generation |
| FAL.ai | Có | tối đa 9 | edit endpoint theo model |
| xAI (Grok) | Có | 1 | /v1/images/edits |
OpenAI qua Codex là backend mạnh nhất: 16 reference images và không cần API key riêng nếu đã có ChatGPT Plus/Pro. Xác thực chỉ mất một lần:
hermes auth add codex-oauth
FAL.ai hỗ trợ editing trên nhiều model: flux-2/klein/9b, flux-2-pro, nano-banana-pro, gpt-image-1.5, gpt-image-2, ideogram/v3, và qwen-image. Các model text-to-image thuần như recraft hay krea/v2 sẽ từ chối image input kèm thông báo lỗi rõ ràng.
Cách thiết lập và dùng ngay
Cách 1 - Nous Portal (đơn giản nhất):
pip install hermes-agent
hermes setup --portal
Một lần OAuth là có ngay Tool Gateway bao gồm image generation, web search, TTS và browser automation - không cần quản lý API key riêng lẻ.
Cách 2 - Codex/ChatGPT subscription:
hermes auth add codex-oauth
Sau đó chọn model trong hermes tools → Image Generation → backend OpenAI via Codex. Với path này bạn có tối đa 16 reference images và dùng được ChatGPT Images 2.0 quality ngay trong Hermes mà không cần mở thêm app.
Cách 3 - FAL.ai trực tiếp: thêm FAL_KEY vào config và chọn model edit-capable từ danh sách. Phù hợp nếu bạn muốn kiểm soát chi tiết chi phí.
Sau khi chọn backend, dùng tool image_generate trong chat theo cú pháp tự nhiên:
"Edit this product photo to match the lighting style from these 3 references: [URL1] [URL2] [URL3]"
Những điểm cần lưu ý
Một số giới hạn kỹ thuật bạn cần biết trước:
- Aspect ratio với gpt-image-2: model yêu cầu tối thiểu 655.360 pixels, nên landscape bị ép về preset 4:3 (1024x768) thay vì 16:9 thông thường. Nếu cần 16:9 thực sự, dùng
gpt-image-1.5(1536x1024). - URL expire: backend trả về hosted URL có thời hạn vài giờ đến vài ngày - Hermes tự cache về local để đảm bảo delivery qua mọi platform.
- Silent param drop: một số model không hỗ trợ
seedhoặcnum_inference_steps- Hermes tự drop các tham số này thay vì báo lỗi (expected behavior, có thể debug qua log). - Codex runtime trade-off: nếu bật Codex runtime, 4 tools agent-loop (
delegate_task,memory,session_search,todo) tạm thời không dùng được - cần switch về/codex-runtime autokhi cần subagent spawning.
v0.18.0 còn gì khác đáng chú ý
Ngoài reference image editing, bản "The Judgment Release" còn đáng chú ý vì một số thay đổi nền tảng:
100% P0/P1 cleared: trong 12 ngày, team đóng 496 issues và merge 196 PRs từ toàn bộ priority backlog, đưa tổng về 0. Con số thực tế: 3 P0 issues, 8 P0 PRs, 493 P1 issues, 188 P1 PRs. Đây là lần đầu tiên trong lịch sử project đạt zero open P0/P1. Team tuyên bố sẽ giữ con số này từ nay về sau.
Mixture-of-Agents (MoA) thành first-class model: trước đây MoA là mode bạn toggle, giờ mỗi MoA preset hiện trong model picker như một model thông thường. Chọn "my-council" giống như chọn Claude hay GPT-4o. Khi ensemble chạy, output của từng model tham chiếu hiện trong block riêng - bạn đọc được reasoning của GPT-5 và Claude trước khi aggregator tổng hợp.
Self-verification với completion contracts: /goal giờ có completion contracts - bạn định nghĩa "done" trông như thế nào, agent judge dựa trên evidence thực (test pass, build thành công) thay vì tự claim xong.
/learn và /journey: /learn <anything> chưng cất bất kỳ workflow nào thành reusable skill - chỉ từ một lệnh. /journey hiện timeline trực quan về mọi thứ agent đã học về bạn, có thể edit hoặc xóa trực tiếp từ giao diện.
Desktop Coding Cockpit: Projects được hỗ trợ first-class với sidebar codebase, coding rail, review pane, git worktree management. Multi-terminal panels persist qua relaunch. Desktop app giờ thực sự là môi trường làm việc nghiêm túc, không chỉ là preview nữa.
Ai nên thử ngay
Tính năng reference image editing đặc biệt phù hợp nếu bạn:
- Đã có ChatGPT Plus/Pro và muốn tận dụng image editing mà không mở thêm app hay quản lý API key
- Làm việc với visual content lặp đi lặp lại cần đồng nhất style (marketing, social media, product photography)
- Muốn tích hợp image editing vào workflow tự động: agent nhận task qua Telegram, chỉnh sửa ảnh theo style library, trả kết quả về
- Đang dùng FAL.ai cho image generation và muốn thêm reference-guided editing mà không đổi hạ tầng
Hermes chạy được ở mọi nơi - từ laptop đến VPS $5/tháng. Desktop app (macOS/Linux/Windows) có thể kết nối remote gateway qua WebSocket, nghĩa là tính toán nặng chạy trên server còn bạn dùng GUI nhẹ từ laptop.
Kết
Reference image editing trong Hermes không phải tính năng thêm vào cho có. Đây là bước tiến thực từ text-to-image sang image-to-image với visual context - thứ mà text prompt không thể truyền đạt đầy đủ. Với tối đa 16 ảnh tham chiếu qua Codex auth và routing tự động sang editing endpoint, workflow chỉnh sửa ảnh theo style giờ nằm ngay trong agent đã biết bạn, nhớ bạn và tự cải thiện theo thời gian.
Cộng thêm zero P0/P1 backlog và MoA first-class, v0.18.0 là một trong những bản release solid nhất của Hermes từ trước đến nay.
Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?
Tất cả nội dung tại đạo quán đều miễn phí. Đạo hữu chỉ cần nhập email của mình để đọc tiếp. Nói KHÔNG với Spam. Huỷ subcribe lúc nào đạo hữu thích.
nếu không muốn nhận newsletter thì có thể nhập mail phụ
