#6142026-05-13
Harness Engineering (Phần 8): Autoharness giúp Claude Code tự tối ưu harness của chính nó
Autoharness là tool open-source cho phép Claude Code tự đề xuất, eval và chỉ giữ lại những thay đổi harness thực sự cải thiện điểm số. Trên benchmark tau2-airline, nó tự tìm ra mức tăng +40.7% từ best-of-N skillbook scoring với LLM judge, +24.1% từ tinh chỉnh reflector hyperparams, và +22.2% từ inject runtime context ở mỗi step. MIT license, cài bằng một dòng pipx, chạy được với Claude Code và Codex. Lấy cảm hứng trực tiếp từ autoresearch của Andrej Karpathy.