Harness Engineering (Phần 8): Autoharness giúp Claude Code tự tối ưu harness của chính nó

TL;DR

Autoharness là một control plane open-source giúp tự động tối ưu harness của AI agent. Bạn trỏ Claude Code vào file GUIDE.md, nó tự đề xuất các thay đổi cho prompt, hyperparameter, runtime context, scoring logic - chạy eval cho từng phương án và chỉ giữ lại những thay đổi thực sự làm điểm số tăng. Trên benchmark tau2-airline, autoharness tự tìm ra ba cải tiến lớn mà không cần con người can thiệp. Cài đặt một dòng, MIT license.

Sơ đồ tiến hoá: prompt engineering, context engineering, agent engineering, rồi đến harness engineering

Nấc thang mới: harness engineering

Còn nhớ lần đầu bạn dùng Claude Code không? Cộng đồng đã đi qua một chuỗi tiến hoá rõ rệt: prompt engineering → context engineering → agent engineering → harness engineering. Theo cách Addy Osmani định nghĩa, harness là "mọi dòng code, config và execution logic không phải là bản thân model". Phương trình nền tảng: coding agent = AI model + harness. Và như ông nhấn mạnh: "một model khá với harness tốt thắng một model giỏi với harness tệ."

Câu hỏi tự nhiên tiếp theo: cái gì nằm trên harness? Câu trả lời là thứ xây ra harness. Đó chính là chỗ Autoharness ra đời - một tool cho phép agent tự cải thiện chính cái scaffolding bao quanh nó.

Autoharness làm gì

Autoharness cho Claude Code khám phá các thay đổi đối với harness của bạn - prompt, hyperparameter, runtime context, scoring - rồi chạy eval và chỉ giữ lại những thay đổi thực sự cải thiện điểm. Tác giả trỏ nó vào chính agent của mình, để nó chạy, và sáng hôm sau có một agent tốt hơn.

Tư duy đằng sau giống "skill issue reframe" trong harness engineering: khi agent mắc lỗi, đó không phải giới hạn của model mà là vấn đề cấu hình - và bạn engineer ra giải pháp để lỗi đó không lặp lại. Autoharness làm việc đó một cách tự động, theo vòng lặp.

Cách hoạt động

Vòng lặp gồm bốn bước, vận hành như một campaign có thể resume:

Setup - lệnh guide quét repo và tạo config khởi đầu (viết ra autoharness.yaml)
Validate - lệnh doctor kiểm tra mọi thứ đã sẵn sàng chạy
Optimize - lệnh optimize chạy vòng search: sinh candidate → chạy benchmark cho từng cái → promote cái thắng
Promote - phương án nào làm điểm tăng thì được đẩy vào "champion state", tức là production

Proposal generator có nhiều loại: thủ công, phân tích failure, template-based, hoặc model-backed (Claude Code, Codex, OpenAI API). Benchmark adapter cũng đa dạng: pytest, generic_command, harbor, tau2_bench, hal, car_bench. Toàn bộ activity được log dưới thư mục .autoharness/ kèm reporting đầy đủ.

Con số trên tau2-airline

Tác giả trỏ autoharness vào agent của chính mình và để nó chạy trên benchmark tau2-airline - bài test mô phỏng hội thoại customer service ngành hàng không, nơi agent phải tuân theo policy và dùng API tools để book, đổi, huỷ vé. Đây là benchmark khó: Claude Sonnet 4.5 hiện dẫn đầu leaderboard với score 0.700 pass@1. Autoharness tự tìm ra ba can thiệp:

Cải tiến tự tìm ra	Mức tăng
Best-of-N skillbook scoring với LLM judge	+40.7%
Tinh chỉnh reflector hyperparams (temperature + max subagent calls)	+24.1%
Inject runtime context ở mỗi step (step budget, recent tool calls, recent results)	+22.2%

Minh hoạ vòng lặp tối ưu của Autoharness với các thanh thể hiện mức tăng hiệu năng và terminal đang chạy lệnh optimize

Lưu ý: đây là kết quả trên một setup cụ thể. Tài liệu nói rõ kết quả phụ thuộc vào benchmark, harness và cách eval - và một số tổ hợp can thiệp có thể gây regression.

Cảm hứng từ autoresearch của Karpathy

Autoharness lấy cảm hứng trực tiếp từ autoresearch của Andrej Karpathy (release đầu tháng 3/2026, hơn 21,000 GitHub stars và 8.6 triệu lượt xem ngay sau khi công bố). Autoresearch là một loop ~630 dòng Python: AI agent đọc source code training, hình thành giả thuyết cải tiến, sửa code, chạy experiment 5 phút trên GPU, giữ lại cái nào tốt hơn, lặp lại. Trong 2 ngày nó chạy 700 experiment, tìm ra ~20 optimization cộng dồn, kéo metric "Time to GPT-2" từ 2.02 giờ xuống 1.80 giờ - tăng 11% hiệu suất. CEO Shopify Tobi Lütke test trên data nội bộ: 37 experiment qua đêm, +19% performance.

Autoharness áp dụng đúng pattern đó nhưng đổi đối tượng tối ưu: thay vì tinh chỉnh ML training code, nó tinh chỉnh chính cái harness của agent.

Bắt đầu nhanh

Cài một dòng: pipx install "git+https://github.com/kayba-ai/autoharness.git"
Trỏ Claude Code của bạn vào file GUIDE.md
Nó đề xuất các thay đổi harness, eval từng cái, chỉ giữ lại cái thắng
Sáng hôm sau dậy với một agent tốt hơn

Giới hạn cần biết

Không có gì đảm bảo cải tiến - kết quả phụ thuộc benchmark, harness, eval setup của bạn
Một số tổ hợp can thiệp có thể làm điểm tụt (regression) - vòng lặp sẽ loại bỏ chúng nhưng vẫn tốn compute
Hiện tài liệu công khai mới chỉ có kết quả trên tau2-airline; chưa có số liệu trên benchmark khác
Chạy nhiều eval qua đêm đồng nghĩa tốn token/compute - cần cân nhắc ngân sách

Kết

Autoharness đóng gói lại một ý tưởng đơn giản mà mạnh: nếu agent có thể viết code, nó cũng có thể cải thiện cái scaffolding chạy chính nó - miễn là có một thước đo (eval) trung thực để biết thay đổi nào thực sự tốt. Đây mới chỉ là single-agent, single-path; hướng đi xa hơn - giống tầm nhìn của Karpathy - là nhiều agent khám phá song song nhiều nhánh tối ưu khác nhau. Repo open-source, MIT license: github.com/kayba-ai/autoharness.

via karpathy/autoresearch, Addy Osmani - Agent Harness Engineering.