Tag: #harness

7 bài viết

#6222026-05-15

Harness Engineering (Phần 3): Anthropic, OpenAI, Nous Research Thiết Kế Harness Như Thế Nào?

Anthropic dùng Ralph Loop 3 agent (Planner + Generator + Evaluator) để build DAW hoàn chỉnh trong 3h50m - $124. OpenAI cho Codex tự đọc production logs bằng LogQL và tự mở PR trả nợ kỹ thuật. Nous Research dùng DSPy + GEPA để Harness tự tối ưu hóa chính nó. Và 3 nguyên tắc ngược trực giác bạn cần biết trước khi thêm bất kỳ tool nào.

harness-engineeringanthropicopenai

8 phút đọc

#5802026-05-11

4 Trụ Cột Agent Bền Vững - Phần 3: Harness và Orchestration

3 harness changes - không đụng model - collapse Claude Code từ 2.200 ký tự thinking xuống 600 trong 6 tuần, API retry rate tăng 80 lần. Multi-agent cho 90.2% performance tốt hơn nhưng 68.9% security exposure cao hơn. Phần cuối series về 4 trụ cột agent production-grade.

ai-agentharnessorchestration

8 phút đọc

#5742026-05-10

Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready

Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.

harness-engineeringai-agentcontext-management

8 phút đọc

#4672026-05-05

Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?

ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.

harness-engineeringai-agentllm

7 phút đọc

#4512026-05-03

Stop Engineering the Agent. Start Engineering the Environment.

holaOS (4.7k sao GitHub, MIT) lập luận rằng vấn đề không phải model quên - mà là chưa ai tạo ra environment đáng để nhớ. Environment Contract 5 lớp (hot context, warm state, cold state, action surface, review boundary) giúp agent duy trì continuity qua mọi session. Agent tự học Skills từ run thành công, chạy 24/7 qua CronJob, có real browser và durable tool wiring.

holaosai-agentenvironment-engineering

6 phút đọc

#4302026-05-01

Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key

GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.

ai-agentharness-engineeringcodex

7 phút đọc

#1472026-02-22

7 Primitives AI Agent Không Bao Giờ Cũ

Context engineering quyết định thứ gì vào model window, không phải cách viết prompt. Single-agent đánh bại multi-agent trong 64% benchmark task với chi phí thấp hơn 2x. Evals biến agent thành sản phẩm thật thay vì demo. MCP là giao thức chuẩn kết nối tool - học shape của nó, bỏ qua phần còn lại.

context-engineeringai-agenttool-design

7 phút đọc