vibe working & agentic AI

// Posts#llm

#4672026-05-05

Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?

ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.

harness-engineeringai-agentllm

7 phút đọc

#4452026-05-02

Kiến trúc Agentic AI: Mental Model để thiết kế hệ thống đa tác tử

Hệ thống multi-agent dùng gấp 15 lần token so với chat nhưng mang lại cải thiện hiệu suất 90.2% so với single-agent. Anthropic xác định 5 pattern orchestration chuẩn: Sequential, Concurrent, Group Chat, Handoff, và Magentic. Kiến trúc gồm 8 tầng từ Orchestration đến Foundation, mỗi tầng có vai trò không thể thiếu. MCP đang trở thành chuẩn giao tiếp giữa agent và tool trong năm 2026.

agentic-aimulti-agentai-architecture

8 phút đọc

#4402026-05-02

8 kỹ thuật prompting để LLM trả lời tốt hơn (không cần đổi model)

Đa số người dùng LLM dừng ở zero-shot — gõ câu hỏi, nhận câu trả lời, xong. Nhưng khi output không đủ tốt, fix đầu tiên không phải nâng model mà là sửa prompt. Đây là 8 kỹ thuật prompting đáng dùng năm 2026, gồm cả ARQ (90.2% tuân thủ chỉ dẫn) và Verbalized Sampling (đa dạng tăng 2x).

prompt-engineeringllmchain-of-thought

7 phút đọc

#4362026-05-01

GraphGen: Sinh Dữ Liệu Huấn Luyện LLM từ Knowledge Graph

GraphGen là framework open-source tạo synthetic training data cho LLM từ knowledge graph, dùng ECE metric để nhắm vào knowledge gap cụ thể. Benchmark với Qwen2.5-7B: +15.5 điểm AIME25 (toán), +14.4 điểm SeedBench (nông nghiệp), +6.7 điểm GPQA-Diamond so với baseline tốt nhất. Sinh ~50,000 samples trong 2 giờ trên 8 A100, output đa dạng hơn 59% (MTLD 75.8 vs 47.6). Apache 2.0, cài bằng uv pip install graphg.

graphgensynthetic-datallm

6 phút đọc

#4322026-05-01

Cách Viết System Prompt Claude Thực Sự Đưa Vào Production

Một constraint 25 từ thêm vào system prompt của Claude Code ngày 16/4/2026 gây ra mức giảm 3% benchmark intelligence - được xác nhận bởi postmortem chính thức của Anthropic. Thứ tự đúng các section (role → constraints → format → examples) giảm 23% out-of-schema response. Bài này phân tích template 9-section đứng sau mọi system prompt Claude đưa vào production, kèm 5 ví dụ thực tế cho thấy pattern thích ứng với các loại công việc khác nhau.

claudeprompt-engineeringsystem-prompt

7 phút đọc

#4222026-05-01

TradingAgents-CN: Khi AI Mô Phỏng Cả Một Phòng Quant Wall Street

TradingAgents-CN đạt 25.2k stars - bản fork A-shares/HK/US của framework multi-agent LLM từ UCLA/MIT. 8 Agent LLM phối hợp mô phỏng nguyên xi một investment bank team. MongoDB + Redis tăng hiệu năng 10x, deploy Docker 5 phút. Backtest AAPL đạt +26.62% vs Buy&Hold -5.23% - nhưng đây là simulation, không phải live trading.

tradingagentsmulti-agentllm

7 phút đọc

#4152026-04-29

Multi-Agent Orchestration: Khi một AI không còn đủ

Anthropic's multi-agent research system vượt single Opus 4 tới 90.2% hiệu suất trên internal evaluation - token usage giải thích 80% variance. Kiến trúc hub-and-spoke chia task cho specialist agents chuyên biệt, mỗi agent chỉ làm một việc cực tốt. Quy tắc bị vi phạm nhiều nhất: context KHÔNG tự động truyền giữa agents - phải pass tường minh hoàn toàn. Ba failure mode phổ biến nhất là narrow decomposition, lost context, và telephone effect.

multi-agentai-orchestrationllm

7 phút đọc

#4072026-04-27

AI Đừng Gật Đầu Nữa: Bộ Quy Tắc Truth-First cho Codex

Codex và hầu hết AI coding agent có xu hướng đồng ý với mọi thứ user nói - hành vi gọi là sycophancy, xảy ra trong 58.2% trường hợp theo nghiên cứu. Một developer chia sẻ bộ quy tắc "Truth-First Reasoning Rules" có thể thêm trực tiếp vào Agents.md hoặc Global Codex rules để buộc AI phải xác minh trước khi đồng ý. Nguyên tắc cốt lõi: correctness comes before agreement - mọi claim của user đều phải bị coi là chưa được xác minh.

ai-agentscodexsycophancy

7 phút đọc

#2852026-04-15

Harness Engineering: Vì Sao AI Của Bạn Vẫn Làm Sai Và Cách Sửa

LangChain tối ưu Harness (không đổi model) đẩy ranking từ hạng 30 lên top 5 Terminal Bench 2.0, cải thiện 13.7 điểm. Grok pass rate tăng từ 6.7% lên 68.3% chỉ nhờ thay đổi tool format trong Harness. Harness Engineering là kỷ luật thứ 3 của AI engineering - xây dựng hệ thống bao quanh model gồm Guides (kiểm soát trước) và Sensors (kiểm soát sau). Mỗi component trong Harness bù đắp một điểm yếu cụ thể của model - khi model cải thiện, component đó phải được gỡ bỏ.

harness-engineeringai-agentclaude-code

8 phút đọc

#2262026-04-02

Agentic Memory: Khi AI Agent Thực Sự Biết Nhớ

Reflexion tăng pass@1 từ 80% lên 91% trên HumanEval chỉ bằng cách cho agent ghi nhớ lỗi quá khứ. Mem0 đạt 91.6 điểm trên benchmark LoCoMo với chỉ ~6.900 tokens/query, so với ~26.000 tokens của full-context. Agentic memory chia thành 4 loại riêng biệt - in-context, external, episodic, semantic - mỗi loại giải quyết một bài toán khác nhau. Voyager (Minecraft agent) có procedural memory nhanh hơn 15.3x so với agent không có memory.

agentic-memoryai-agentvector-database

7 phút đọc