Harness Engineering (Phần 3): Anthropic, OpenAI, Nous Research Thiết Kế Harness Như Thế Nào?
Anthropic dùng Ralph Loop 3 agent (Planner + Generator + Evaluator) để build DAW hoàn chỉnh trong 3h50m - $124. OpenAI cho Codex tự đọc production logs bằng LogQL và tự mở PR trả nợ kỹ thuật. Nous Research dùng DSPy + GEPA để Harness tự tối ưu hóa chính nó. Và 3 nguyên tắc ngược trực giác bạn cần biết trước khi thêm bất kỳ tool nào.
4 Trụ Cột Agent Bền Vững - Phần 3: Harness và Orchestration
3 harness changes - không đụng model - collapse Claude Code từ 2.200 ký tự thinking xuống 600 trong 6 tuần, API retry rate tăng 80 lần. Multi-agent cho 90.2% performance tốt hơn nhưng 68.9% security exposure cao hơn. Phần cuối series về 4 trụ cột agent production-grade.
Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready
Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.
Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?
ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.
Stop Engineering the Agent. Start Engineering the Environment.
holaOS (4.7k sao GitHub, MIT) lập luận rằng vấn đề không phải model quên - mà là chưa ai tạo ra environment đáng để nhớ. Environment Contract 5 lớp (hot context, warm state, cold state, action surface, review boundary) giúp agent duy trì continuity qua mọi session. Agent tự học Skills từ run thành công, chạy 24/7 qua CronJob, có real browser và durable tool wiring.
Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key
GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.
7 Primitives AI Agent Không Bao Giờ Cũ
Context engineering quyết định thứ gì vào model window, không phải cách viết prompt. Single-agent đánh bại multi-agent trong 64% benchmark task với chi phí thấp hơn 2x. Evals biến agent thành sản phẩm thật thay vì demo. MCP là giao thức chuẩn kết nối tool - học shape của nó, bỏ qua phần còn lại.