Nghiên cứu: Harness phức tạp hơn không có nghĩa là AI agent tốt hơn
432 lần thử nghiệm cho thấy Gemini 2.5 Flash mất 29-38 điểm VTSR khi harness phức tạp hơn. Qwen3.5-122B đạt đỉnh 91.7% VTSR chính xác ở strict harness - ngược hoàn toàn kỳ vọng. Model 2B Gemma4:e2B ổn định 91.7% khắp mọi điều kiện - ngang với model mạnh hơn nhiều.
Harness Engineering (Phần 3): Anthropic, OpenAI, Nous Research Thiết Kế Harness Như Thế Nào?
Anthropic dùng Ralph Loop 3 agent (Planner + Generator + Evaluator) để build DAW hoàn chỉnh trong 3h50m - $124. OpenAI cho Codex tự đọc production logs bằng LogQL và tự mở PR trả nợ kỹ thuật. Nous Research dùng DSPy + GEPA để Harness tự tối ưu hóa chính nó. Và 3 nguyên tắc ngược trực giác bạn cần biết trước khi thêm bất kỳ tool nào.
Harness Engineering (Phần 8): Autoharness giúp Claude Code tự tối ưu harness của chính nó
Autoharness là tool open-source cho phép Claude Code tự đề xuất, eval và chỉ giữ lại những thay đổi harness thực sự cải thiện điểm số. Trên benchmark tau2-airline, nó tự tìm ra mức tăng +40.7% từ best-of-N skillbook scoring với LLM judge, +24.1% từ tinh chỉnh reflector hyperparams, và +22.2% từ inject runtime context ở mỗi step. MIT license, cài bằng một dòng pipx, chạy được với Claude Code và Codex. Lấy cảm hứng trực tiếp từ autoresearch của Andrej Karpathy.
Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready
Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.
Harness Engineering (Phần 6): Khi Scaffolding Quan Trọng Hơn Model
Claude Opus 4.6 xếp hạng #33 trên Terminal Bench 2.0 trong native harness, nhưng vọt lên #5 chỉ bằng cách thay đổi cấu hình - không đụng vào model. ~98.4% codebase của Claude Code là infrastructure, chỉ 1.6% là AI decision logic. Harness engineering - discipline thiết kế scaffolding xung quanh model - đang trở thành kỹ năng cốt lõi của agentic era.
Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?
ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.
Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key
GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.
Harness Engineering: Vì Sao AI Của Bạn Vẫn Làm Sai Và Cách Sửa
LangChain tối ưu Harness (không đổi model) đẩy ranking từ hạng 30 lên top 5 Terminal Bench 2.0, cải thiện 13.7 điểm. Grok pass rate tăng từ 6.7% lên 68.3% chỉ nhờ thay đổi tool format trong Harness. Harness Engineering là kỷ luật thứ 3 của AI engineering - xây dựng hệ thống bao quanh model gồm Guides (kiểm soát trước) và Sensors (kiểm soát sau). Mỗi component trong Harness bù đắp một điểm yếu cụ thể của model - khi model cải thiện, component đó phải được gỡ bỏ.