Tất cả bài viết

// Posts#agent

#7462026-05-29

Microsoft mở mã SkillOpt: train file SKILL.md như neural network

Microsoft công bố SkillOpt, framework treat file SKILL.md như trainable parameter của frozen LLM agent. Trên GPT-5.5, SkillOpt cộng +23.5 điểm accuracy trong direct chat, +24.8 trong Codex và +19.1 trong Claude Code. Best hoặc tied trên cả 52/52 cell (model x benchmark x harness). Skill artifact 300-2000 token, MIT license, không tốn thêm inference call lúc deploy.

microsoftagentllm

7 phút đọc

#6372026-05-15

Harness Engineering (Phần 3): Anthropic, OpenAI, Nous Research Thiết Kế Harness Như Thế Nào?

Anthropic dùng Ralph Loop 3 agent (Planner + Generator + Evaluator) để build DAW hoàn chỉnh trong 3h50m - $124. OpenAI cho Codex tự đọc production logs bằng LogQL và tự mở PR trả nợ kỹ thuật. Nous Research dùng DSPy + GEPA để Harness tự tối ưu hóa chính nó. Và 3 nguyên tắc ngược trực giác bạn cần biết trước khi thêm bất kỳ tool nào.

harness-engineeringanthropicopenai

8 phút đọc

#5892026-05-10

Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready

Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.

harness-engineeringai-agentcontext-management

8 phút đọc

#4812026-05-05

Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?

ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.

harness-engineeringai-agentllm

7 phút đọc