GEPA kéo Haiku 4.5 từ 65% lên 85% pass rate — tune CLAUDE.md tự động, không đổi model

TL;DR

GEPA (Genetic-Pareto) là prompt optimizer open-source mới — thay vì "trial and error" mù, nó bảo một LLM đọc full execution trace (error message, reasoning log, test failure) rồi đề xuất sửa prompt có mục tiêu. Một developer đã chạy GEPA lên file CLAUDE.md của mình và kéo Claude Haiku 4.5 từ 65% lên 85% pass rate — không đổi model, không fine-tune. Team gốc của GEPA cũng công bố kết quả gskill cho thấy Haiku 4.5 nhảy từ 79.3% → 98.3% trên repo Bleve. Paper được nhận Oral tại ICLR 2026.

Có gì mới

Các optimizer cũ (RL/GRPO) nén cả một chuỗi thực thi dài vào một con số reward, nên chúng biết prompt thất bại nhưng không biết tại sao. GEPA lật ngược cách tiếp cận đó: bắt một LLM phản xạ (reflection LLM) đọc lại trace, chẩn đoán lỗi bằng ngôn ngữ tự nhiên, rồi đề xuất mutation cụ thể. Các candidate tốt được giữ trên một Pareto frontier — tập các prompt dẫn đầu ở ít nhất một task — thay vì chỉ giữ best global, nhờ đó tránh được local optima.

Kết quả thực tế là bạn có thể optimize CLAUDE.md, system prompt, agent skill, thậm chí code — chỉ cần cung cấp một evaluator trả về điểm + feedback text.

Tại sao builder nên quan tâm

Hai lý do cụ thể:

Rẻ hơn RL 35 lần. GEPA cần 100–500 lần eval để hội tụ, trong khi GRPO cần 5.000–25.000+ rollouts. Với giá API hiện tại, khác biệt là vài chục USD vs. vài nghìn USD.
Không cần weight. Chạy trực tiếp với Claude, Gemini, GPT-5 qua API. Đây là khác biệt chính so với fine-tune — bạn optimize phần mình thực sự sở hữu: instruction text.

Nói cách khác: thay vì đổi model (tăng chi phí inference gấp 2–3 lần), bạn giữ Haiku 4.5 rẻ, chỉ tune prompt của nó để sát với codebase cụ thể.

Technical facts (số liệu chuẩn)

Trích từ paper arXiv 2507.19457 và blog gskill 18/02/2026:

Benchmark	Model / Agent	Trước	Sau GEPA
CLAUDE.md eval (tweet @shawntenam)	Claude Haiku 4.5	65%	85%
Bleve (Go, SWE-smith test)	Claude Haiku 4.5	79.3%	98.3%
Jinja (Python, SWE-smith test)	Claude Haiku 4.5	93.9%	98.5%
Bleve avg task duration	Claude Haiku 4.5	173s	142s
AIME 2025	GPT-4.1-mini	46.6%	56.6%
ARC-AGI (architecture search)	Agent	32%	89%
MATH (DSPy Full Program)	—	67%	93%

Một chi tiết thú vị: skill được học trên gpt-5-mini (rẻ) nhưng transfer nguyên trạng sang Claude Code chạy Haiku 4.5 và Sonnet 4.5 — nghĩa là skill encode convention của repo, không phải đặc thù từng model.

So với các hướng khác

vs. GRPO (RL): trên 6 task, GEPA hơn 6% trung bình, tối đa +20%, với 35× ít rollouts.
vs. MIPROv2 (prompt optimizer dẫn đầu trước đó): hơn 10%+, riêng AIME-2025 là +12%.
vs. đổi model: Databricks báo cáo mô hình open-source + GEPA đạt ngang Claude Opus 4.1 ở mức giá 90× rẻ hơn.

Use case thực tế

GEPA phát huy mạnh nhất ở ba kịch bản:

Tune CLAUDE.md cho coding agent. Nếu bạn xài Claude Code trong monorepo có convention riêng (import path, test runner, naming), viết bộ 5–10 task verifiable, để GEPA tự viết lại CLAUDE.md sao cho agent pass cao hơn và chạy nhanh hơn.
Optimize RAG pipeline. GEPA có sẵn Generic RAG adapter (Chroma, Weaviate, Qdrant, Pinecone) — tune prompt retrieval + generation mà không cần đụng model.
Rút gọn agent lớn về model nhỏ. Như kết quả Databricks: giữ chất lượng, giảm 90× chi phí inference.

Đã có production usage ở Shopify, Databricks, Dropbox, OpenAI, Pydantic, MLflow, Comet ML.

Hạn chế & giá

License: MIT, free. Bạn chỉ trả tiền LLM provider cho ~100–500 eval + các lệnh reflection — rẻ hơn RL rất nhiều nhưng không miễn phí tuyệt đối.

Điểm cần lưu ý:

Cần signal feedback có ý nghĩa — unit test, validator, LLM-as-judge. Chỉ có scalar reward thì reflection sẽ yếu.
Trong gskill, task được SWE-smith sinh ra nghiêng về fix issue, nên skill học được đôi khi bias sang bug-patching thay vì coding practice tổng quát.
Metric API của GEPA hiện yêu cầu module-level score và predictor-level score khớp nhau — nếu lệch sẽ báo warning.

Bước tiếp theo

Mốc thời gian:

25/07/2025 — arXiv v1.
14/02/2026 — arXiv v2.
18/02/2026 — công bố gskill và kết quả Haiku 4.5 / Sonnet 4.5.
2026 — ICLR Oral.

Roadmap team: mở rộng dataset ngoài SWE-smith (task phức tạp hơn), tiến hoá cả skill script executable (không chỉ markdown), và áp dụng skill learning cho non-SWE task như computer use.

Cho builder muốn thử ngay:

pip install gepa

Rồi bắt đầu từ gepa.optimize() với seed_candidate là CLAUDE.md hiện tại của bạn. Quick Start có sẵn trên GitHub.

Nguồn: github.com/gepa-ai/gepa, arXiv 2507.19457, GEPA blog (gskill, 2026-02-18), DSPy docs.

GEPA kéo Haiku 4.5 từ 65% lên 85% pass rate — tune CLAUDE.md tự động, không đổi model

TL;DR

Có gì mới

Tại sao builder nên quan tâm

Technical facts (số liệu chuẩn)

So với các hướng khác

Use case thực tế

Hạn chế & giá

Bước tiếp theo

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

CubeSandbox: Tencent vừa open-source nền tảng chạy hàng nghìn AI agent isolation thật trong vài mili-giây

GitHub Copilot SDK gặp React Native: bài học từ IssueCrush