GEPA và Curator: Bộ đôi tối ưu hóa biến Hermes Agent thành machine tự tiến hóa

TL;DR

Bài trước đã giải thích cách Hermes Agent tự tạo SKILL.md và hệ thống bộ nhớ 3 tầng. Bài này đi vào hai cơ chế đảm bảo skill library không bị bloated và tiếp tục cải thiện theo thời gian: GEPA (engine tối ưu hóa offline) và Curator (background agent dọn dẹp). Cộng thêm: so sánh với Claude Code và OpenClaw, cùng các use case thực tế.

Vấn đề "tự khen mình" của AI agent

Có một lỗ hổng ít người biết trong các AI agent tự cải thiện: agent gần như luôn nghĩ mình làm tốt, dù thực tế không phải vậy. Cộng đồng Hermes đã xác nhận điều này. Nếu bạn hỏi agent "Bạn vừa làm tốt không?", câu trả lời gần như luôn là có - dù task thực ra thất bại.

Hệ quả: nếu dùng agent để tự evaluate và cải thiện skill của chính nó, nó sẽ tạo ra những skill tệ hơn mà vẫn nghĩ là đã cải thiện. Đây là vấn đề GEPA được thiết kế để giải quyết.

GEPA - đọc execution trace thay vì hỏi agent

GEPA Genetic-Pareto Prompt Evolution optimization pipeline for Hermes Agent

GEPA (Genetic-Pareto Prompt Evolution) là ICLR 2026 Oral paper, được triển khai trong repo NousResearch/hermes-agent-self-evolution như một offline optimization pipeline - không phải một phần của runtime Hermes.

Ý tưởng cốt lõi: thay vì hỏi agent "bạn làm tốt không?", GEPA đọc execution traces để hiểu chính xác tại sao mọi thứ thất bại, rồi đề xuất cải tiến có mục tiêu.

Pipeline hoạt động theo 5 bước:

Đọc skill hiện tại từ Hermes repo
Generate evaluation dataset (synthetic test cases qua Claude Opus, real session history từ SQLite, hoặc hand-curated golden sets)
GEPA optimizer đọc execution traces, hiểu điểm thất bại, generate candidate variants
Evaluate candidates dùng LLM-as-judge scoring với rubrics (không phải binary pass/fail)
Apply constraint gates: pytest 100%, skill ≤15KB, tool descriptions ≤500 chars, semantic purpose không drift. Best variant ra dưới dạng PR - không bao giờ direct commit

Con số đáng chú ý: GEPA dùng 35x ít rollouts hơn GRPO và đạt cải thiện lên đến 20% trên specific tasks. Chi phí: ~$2-10/optimization run qua API, không cần GPU. Chạy thử skill optimization: hermes gepa run --skill <skill-name>.

Curator - background agent dọn dẹp skill library

Hermes Agent Curator background maintenance and skill archival system

Sau 6 tháng dùng Hermes tích cực, skill library của bạn sẽ trông như tủ quần áo chưa dọn 3 năm: duplicates, drafts chưa xong, skills giải quyết vấn đề một lần rồi không dùng nữa.

Curator, ra mắt trong v0.12 (30/4/2026), là background agent xử lý vấn đề này. Nó chạy theo chu kỳ 7 ngày theo cron ticker của gateway, kế thừa config của parent agent, và hoạt động theo 2 phase:

Phase 1 - Deterministic (không cần LLM): Skills không dùng 30 ngày → stale. Skills không dùng 90 ngày → archived (vào ~/.hermes/skills/.archive/). Tự động, không tốn LLM token.
Phase 2 - LLM review (tối đa 8 iterations): Một forked agent survey toàn bộ agent-authored skills và quyết định từng skill: keep, patch, consolidate, hay archive. Hai ràng buộc quan trọng: Curator không bao giờ động vào bundled hoặc hub-installed skills - chỉ agent-authored. Và không bao giờ auto-delete - tệ nhất là archive, rollback bằng một lệnh.

Trước mỗi Curator pass, Hermes tạo snapshot tar.gz của toàn bộ skills directory. Mọi thứ Curator làm đều reversible. Để chạy Curator thủ công hoặc điều chỉnh: hermes curator run.

Tip tối ưu chi phí: Chạy Curator trên model phụ như DeepSeek V4 Flash ($0.14/1M input tokens). Một chu kỳ 7 ngày trên 500 skills thường rẻ hơn một coding session thông thường.

So sánh với Claude Code và OpenClaw

Hermes không phải coding copilot và không cạnh tranh trực tiếp với Claude Code. Thay vào đó:

Vs Claude Code: Hermes có thể orchestrate Claude Code như delegated subagent. Spawn một "programmer" profile, gửi prompt: "You are my staff engineer. Under the hood you use Claude Code for all executions." - agent tự cài claude-code skill, verify Claude có trên PATH, và từ đó mọi task coding đều route qua Claude Code. Bạn dùng Claude Max subscription mà không cần thêm API key.
Vs OpenClaw (closest competitor): OpenClaw packages an agent around a messaging gateway; Hermes packages a messaging gateway around a learning agent. Sự khác biệt không chỉ là marketing - Hermes là agent duy nhất kết hợp cả 3: runtime skill learning + persistent multi-layer memory + offline evolutionary training (GEPA). OpenClaw không có cả 3.
Vs standard chatbots/copilots: Reset hoàn toàn giữa sessions. Hermes là platform-agnostic daemon chạy trên $5 VPS, bạn điều khiển qua Telegram từ điện thoại trong khi nó làm việc trên cloud VM.

Use case thực tế: ai nên thử ngay

Hermes phù hợp nhất cho người có complex, repetitive workflows muốn AI tích lũy context qua nhiều tháng:

Researcher tự động: Cron job chạy research task, gửi daily digest qua Telegram mỗi sáng. Không cần nhớ ask.
Visual designer: Feed reference images, agent encode style thành SKILL.md. Mọi illustration sau đó đều consistent style.
Enterprise team: Slack channel-specific skill bindings (#devops chỉ thấy infrastructure skills, #design chỉ thấy Figma skills). Join Google Meet, transcribe, handle follow-ups.
Developer: Staff engineer profile orchestrate qua Hermes, Claude Code làm file edits và git operations dưới hood.

Kết

GEPA và Curator giải quyết hai vấn đề khác nhau nhưng đều thiết yếu: GEPA đảm bảo skills trong library thực sự hoạt động tốt hơn theo thời gian (không chỉ agent tự nghĩ vậy). Curator đảm bảo library không bị bloated đến mức tốn token cho cả những skills đã lỗi thời.

Roadmap GEPA vẫn còn 4 phase chưa làm: tool descriptions, system prompt sections, tool implementation code (Darwinian Evolver), và automated continuous improvement loop. Khi Phase 5 xong, Hermes sẽ là agent đầu tiên có thể tự cải thiện mọi thành phần của chính nó - không cần con người can thiệp.

via GitHub hermes-agent-self-evolution · v0.12 Curator Release Guide · Hermes Agent Benchmark Guide