#9102026-05-05
Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key
GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.