Tất cả bài viết

// Posts#harness

#8012026-05-01

Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key

GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.

ai-agentharness-engineeringcodex

7 phút đọc

#7212026-04-08

Agent Harness: Tầng Infrastructure Quyết Định AI Agent Thắng Hay Thua

LangChain chỉ thay harness - không đổi model - nhảy từ ngoài top 30 lên rank 5 TerminalBench 2.0. Một công ty xóa 80% tools sẵn có, hiệu suất agent tăng vọt. Claude Code được rebuild 5 lần trong 6 tháng, mỗi lần loại bỏ complexity. Production agent harness gồm 11 component thiết yếu mà không ai dạy bạn.

ai-agentagent-harnessllm

7 phút đọc

#6072026-02-22

7 Primitives AI Agent Không Bao Giờ Cũ

Context engineering quyết định thứ gì vào model window, không phải cách viết prompt. Single-agent đánh bại multi-agent trong 64% benchmark task với chi phí thấp hơn 2x. Evals biến agent thành sản phẩm thật thay vì demo. MCP là giao thức chuẩn kết nối tool - học shape của nó, bỏ qua phần còn lại.

context-engineeringai-agenttool-design

7 phút đọc