Tag: #llm-infrastructure

3 bài viết

#6552026-05-18

Harness Engineering (Phần 9): Memory và Skills không phải là plugin - chúng là cùng một World Model

Cognee vừa raise $7.5M seed với luận điểm gây tranh cãi: Memory API không phải sản phẩm khả thi, Skill file chỉ là markdown - cả hai thực ra là cùng một harness tạo nên World Model của agent. Benchmark cho thấy cách tiếp cận graph-vector hybrid đạt DeepEval F1 tăng 314% so với RAG thông thường. Với 1M+ pipelines/tháng và 70+ doanh nghiệp như Bayer đang dùng, đây không phải lý thuyết suông.

cogneeai-agentsmemory

6 phút đọc

#4302026-05-01

Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key

GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.

ai-agentharness-engineeringcodex

7 phút đọc

#2572026-04-11

Harness Engineering (Phần 5): Harness Là Lợi Thế Cạnh Tranh Mới

deepagents-cli của LangChain nhảy từ ngoài Top 30 lên Top 5 trên Terminal-Bench 2.0 với mức tăng 13.7 điểm — mà model bên dưới không đổi. Meta-Harness của Stanford đạt 76.4% trên cùng benchmark khi dùng Claude Opus 4.6. Team Frontier của OpenAI đã ship hơn 1 triệu dòng code production với zero dòng code do người viết, chỉ với 3-7 kỹ sư. Harness mới là moat, không phải model.

agent-harnessagentic-engineeringllm-infrastructure

7 phút đọc