Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?
ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.
Kiến trúc Agentic AI: Mental Model để thiết kế hệ thống đa tác tử
Hệ thống multi-agent dùng gấp 15 lần token so với chat nhưng mang lại cải thiện hiệu suất 90.2% so với single-agent. Anthropic xác định 5 pattern orchestration chuẩn: Sequential, Concurrent, Group Chat, Handoff, và Magentic. Kiến trúc gồm 8 tầng từ Orchestration đến Foundation, mỗi tầng có vai trò không thể thiếu. MCP đang trở thành chuẩn giao tiếp giữa agent và tool trong năm 2026.
8 kỹ thuật prompting để LLM trả lời tốt hơn (không cần đổi model)
Đa số người dùng LLM dừng ở zero-shot — gõ câu hỏi, nhận câu trả lời, xong. Nhưng khi output không đủ tốt, fix đầu tiên không phải nâng model mà là sửa prompt. Đây là 8 kỹ thuật prompting đáng dùng năm 2026, gồm cả ARQ (90.2% tuân thủ chỉ dẫn) và Verbalized Sampling (đa dạng tăng 2x).
GraphGen: Sinh Dữ Liệu Huấn Luyện LLM từ Knowledge Graph
GraphGen là framework open-source tạo synthetic training data cho LLM từ knowledge graph, dùng ECE metric để nhắm vào knowledge gap cụ thể. Benchmark với Qwen2.5-7B: +15.5 điểm AIME25 (toán), +14.4 điểm SeedBench (nông nghiệp), +6.7 điểm GPQA-Diamond so với baseline tốt nhất. Sinh ~50,000 samples trong 2 giờ trên 8 A100, output đa dạng hơn 59% (MTLD 75.8 vs 47.6). Apache 2.0, cài bằng uv pip install graphg.
Cách Viết System Prompt Claude Thực Sự Đưa Vào Production
Một constraint 25 từ thêm vào system prompt của Claude Code ngày 16/4/2026 gây ra mức giảm 3% benchmark intelligence - được xác nhận bởi postmortem chính thức của Anthropic. Thứ tự đúng các section (role → constraints → format → examples) giảm 23% out-of-schema response. Bài này phân tích template 9-section đứng sau mọi system prompt Claude đưa vào production, kèm 5 ví dụ thực tế cho thấy pattern thích ứng với các loại công việc khác nhau.
TradingAgents-CN: Khi AI Mô Phỏng Cả Một Phòng Quant Wall Street
TradingAgents-CN đạt 25.2k stars - bản fork A-shares/HK/US của framework multi-agent LLM từ UCLA/MIT. 8 Agent LLM phối hợp mô phỏng nguyên xi một investment bank team. MongoDB + Redis tăng hiệu năng 10x, deploy Docker 5 phút. Backtest AAPL đạt +26.62% vs Buy&Hold -5.23% - nhưng đây là simulation, không phải live trading.
Multi-Agent Orchestration: Khi một AI không còn đủ
Anthropic's multi-agent research system vượt single Opus 4 tới 90.2% hiệu suất trên internal evaluation - token usage giải thích 80% variance. Kiến trúc hub-and-spoke chia task cho specialist agents chuyên biệt, mỗi agent chỉ làm một việc cực tốt. Quy tắc bị vi phạm nhiều nhất: context KHÔNG tự động truyền giữa agents - phải pass tường minh hoàn toàn. Ba failure mode phổ biến nhất là narrow decomposition, lost context, và telephone effect.
AI Đừng Gật Đầu Nữa: Bộ Quy Tắc Truth-First cho Codex
Codex và hầu hết AI coding agent có xu hướng đồng ý với mọi thứ user nói - hành vi gọi là sycophancy, xảy ra trong 58.2% trường hợp theo nghiên cứu. Một developer chia sẻ bộ quy tắc "Truth-First Reasoning Rules" có thể thêm trực tiếp vào Agents.md hoặc Global Codex rules để buộc AI phải xác minh trước khi đồng ý. Nguyên tắc cốt lõi: correctness comes before agreement - mọi claim của user đều phải bị coi là chưa được xác minh.
Harness Engineering: Vì Sao AI Của Bạn Vẫn Làm Sai Và Cách Sửa
LangChain tối ưu Harness (không đổi model) đẩy ranking từ hạng 30 lên top 5 Terminal Bench 2.0, cải thiện 13.7 điểm. Grok pass rate tăng từ 6.7% lên 68.3% chỉ nhờ thay đổi tool format trong Harness. Harness Engineering là kỷ luật thứ 3 của AI engineering - xây dựng hệ thống bao quanh model gồm Guides (kiểm soát trước) và Sensors (kiểm soát sau). Mỗi component trong Harness bù đắp một điểm yếu cụ thể của model - khi model cải thiện, component đó phải được gỡ bỏ.
Agentic Memory: Khi AI Agent Thực Sự Biết Nhớ
Reflexion tăng pass@1 từ 80% lên 91% trên HumanEval chỉ bằng cách cho agent ghi nhớ lỗi quá khứ. Mem0 đạt 91.6 điểm trên benchmark LoCoMo với chỉ ~6.900 tokens/query, so với ~26.000 tokens của full-context. Agentic memory chia thành 4 loại riêng biệt - in-context, external, episodic, semantic - mỗi loại giải quyết một bài toán khác nhau. Voyager (Minecraft agent) có procedural memory nhanh hơn 15.3x so với agent không có memory.