Agentmemory: "Bộ Nhớ Vô Hạn" cho Codex và Claude Code - P3: Benchmark, 5 Bẫy Thường Gặp và Kết Luận

TL;DR

Phần cuối series. So sánh chi tiết Agentmemory với Mem0, Letta, và CLAUDE.md thủ công. Giải thích cách đọc các con số benchmark không bị overhype. Và 5 bẫy thực tế mà người dùng hay gặp trong tuần đầu - kèm fix cụ thể từ GitHub Issues chính thức.

So sánh với Mem0, Letta và CLAUDE.md

Khi nhìn vào không gian memory engines năm 2026, có 3 cái tên chính:

Mem0: hơn 53k GitHub Stars, general-purpose memory layer, API/Cloud first
Letta (ex-MemGPT): ~22k Stars, full agent OS, virtual context management
Agentmemory: 20k Stars, coding agent specific, local SQLite

Đây là bảng so sánh đầy đủ, lấy trực tiếp từ README của Agentmemory:

Tiêu chí	Agentmemory	Mem0	Letta/MemGPT	CLAUDE.md
Loại	Memory engine + MCP server	Memory layer API	Full agent runtime	Static file
R@5 (LongMemEval)	95.2%	68.5% (cũ) / 94.8% (mới)	83.2%	N/A
Auto-capture	12 hooks, zero manual	Manual add()	Agent self-edits	Manual editing
Search	BM25 + Vector + Graph (RRF)	Vector + Graph	Vector (archival)	Load all vào context
Multi-agent	MCP + REST + leases	API only	Trong Letta runtime	Per-agent files
Framework lock-in	Không	Không	Cao (phải dùng Letta)	Per-agent format
Dependencies	SQLite + iii-engine	Qdrant / pgvector	Postgres + vector DB	Không
Token cost	~1.900/session ($10/năm)	Tùy integration	Core memory in context	22K+ tokens
Self-hosted	Có (default)	Tùy chọn	Tùy chọn	Có

Agentmemory vs. Mem0

Mem0 là general-purpose - phù hợp cho mọi loại AI app cần nhớ thông tin user. Agentmemory là coding agent specific - toàn bộ pipeline được tối ưu cho dev workflow: hook vào tool executions, diff files, error contexts.

Điểm khác biệt thực sự: zero manual effort. Mem0 cần developer gọi memory.add() tại đúng chỗ trong code. Agentmemory tự capture qua hooks. Với dev workflow phức tạp, "tự động" thắng "thủ công" rất rõ ràng.

Mem0 đã ra algorithm mới năm 2026 với R@5 94.8% - gần sát Agentmemory 95.2%. Nhưng Agentmemory đạt con số đó với zero-config local setup; Mem0 version mới cần external vector store.

Agentmemory vs. Letta

Letta là "Agent OS" - nếu bạn muốn một platform hoàn chỉnh để chạy agents với bộ nhớ lâu dài, Letta là lựa chọn mạnh. Nhưng đi kèm với high lock-in: bạn phải build agent trong Letta ecosystem.

Agentmemory là memory layer thuần túy - plug vào bất kỳ agent nào đang dùng. Không cần đổi tool, không cần migrate workflow. Đây là điểm Rohit nhấn mạnh: "designed as a decoupled memory layer that works across harnesses."

Nếu bạn dùng Claude Code sáng, Cursor chiều, Codex CLI tối - Agentmemory là lựa chọn rõ ràng hơn Letta.

Đọc benchmark đúng cách

Con số "92% giảm token" và "95.2% R@5" hay bị oversell. Cần hiểu chúng thực sự có nghĩa gì:

92% giảm token - ngữ cảnh đúng

Con số này là so sánh per-session:

CLAUDE.md thủ công với 240 observations: ~22.000 tokens/session
Agentmemory: ~1.900 tokens/session

Hàng năm với LLM-summarized workflow: ~$500/năm → ~$10/năm (98% cost reduction). Lý do khoảng cách lớn: Agentmemory dùng local SQLite + local embeddings, không tốn tiền LLM mỗi lần compress.

Thực tế thêm: Agentmemory đo background compression cost trong 35 giờ làm việc thực tế (635 requests, 888K tokens). Dùng DeepSeek-V4-Pro: ~$0.46. Dùng Claude Sonnet 4.6: ~$5.02. Chọn model cho compression layer quan trọng hơn nhiều người nghĩ.

R@5 = 95.2% không phải "AI trả lời đúng 95%"

LongMemEval-S là benchmark retrieval accuracy - đo "đúng nằm trong top 5 kết quả tìm kiếm không." Đây KHÔNG phải end-to-end QA accuracy.

R@5 = 95.2% nghĩa là: khi search về một topic, 95.2% trường hợp câu trả lời đúng xuất hiện trong 5 candidates được retrieve. Claude còn phải đọc 5 candidates đó và tổng hợp ra đúng câu trả lời - một bước riêng biệt không được đo ở đây.

Điều này không giảm giá trị của con số - retrieval tốt là foundation cần thiết. Nhưng đừng expect "95% tất cả câu hỏi đều được trả lời đúng."

5 bẫy thường gặp trong tuần đầu

Bẫy 1: iii-engine version mismatch

Symptom:

iii: command not found
# hoặc
Version mismatch: expected v0.11.2, got v0.11.0

Nguyên nhân: iii-engine version khác v0.11.2. Fix: cài lại đúng version (xem hướng dẫn Bước 1 trong P2).

Đây là lỗi #1 mà người mới setup gặp phải. Bỏ qua bước cài iii-engine riêng hoặc có sẵn version khác trên máy là nguyên nhân chính.

Bẫy 2: Vòng lặp vô tận tạo ghost sessions (Issue #181)

Symptom: Server bỗng tạo hàng trăm sessions trong vài phút, CPU tăng vọt.

Nguyên nhân: AGENTMEMORY_ALLOW_AGENT_SDK=true + API key chưa set → Stop hook gọi /summarize → tạo child session → child session cũng fire Stop hook → đệ quy vô tận. Trong một case được report trên GitHub, ~579 ghost sessions được tạo ra trước khi user kill process.

Fix:

# Cách 1 (khuyến nghị - tắt agent SDK mode)
export AGENTMEMORY_ALLOW_AGENT_SDK=false

# Cách 2 - set API key thật
export AGENTMEMORY_ANTHROPIC_API_KEY="sk-ant-..."

# Cách 3 - dùng fake key để force error (chỉ cho ngày đầu test)
export AGENTMEMORY_ANTHROPIC_API_KEY="fake-key"

Bẫy 3: MCP và REST API dùng separate KV stores (Issue #159)

Symptom: Search qua MCP tool ra rỗng, nhưng REST API cho kết quả.

# REST API tìm thấy
curl http://localhost:3111/agentmemory/sessions
# -> 69 observations

# MCP tool trả về rỗng
memory_sessions
# -> []

Nguyên nhân: package @agentmemory/mcp và Agentmemory server dùng hai KV store độc lập, chưa có bridge (Issue #159 vẫn open). Workaround: dùng REST API trực tiếp thay vì MCP tool, hoặc disable MCP và dùng hooks + REST.

Bẫy 4: Cursor/VSCode không nhận config MCP mới

Symptom: Edit ~/.cursor/mcp.json xong, restart Cursor, vẫn không thấy Agentmemory trong /mcp list.

Nguyên nhân: Click X để đóng Cursor không kill hết process. Background process vẫn chạy với config cũ trong memory.

Fix - kill sạch trước khi restart:

# macOS
pkill -9 Cursor
open /Applications/Cursor.app

# Windows (PowerShell)
Get-Process -Name Cursor | Stop-Process -Force

Rule of thumb: trước khi blame config file, luôn kill process và restart hoàn toàn.

Bẫy 5: Privacy filter drop observations không báo

Symptom: Server chạy bình thường, hooks fire, nhưng viewer không hiện observations.

Trong logs:

[warn] observation dropped: private_tag detected
[warn] observation dropped: private_email detected

Nguyên nhân: Agentmemory có privacy filter mặc định loại bỏ API keys, passwords, emails, và PII. Nếu code bạn đang làm có chứa credentials (ví dụ: test file với hardcoded API key), những observations đó bị drop hoàn toàn.

Đây KHÔNG phải bug - là tính năng bảo mật. Nhưng không biết thì tưởng "Agentmemory không hoạt động."

Fix: tạo .agentmemoryignore để exclude files chứa credentials:

echo ".env" >> .agentmemoryignore
echo ".env.local" >> .agentmemoryignore
echo "**/*.key" >> .agentmemoryignore
echo "**/*password*" >> .agentmemoryignore

"Vô hạn memory" trong thực tế

Sau một tuần dùng thực tế, team Codex Studio viết: "Vô hạn memory không phải là mở rộng context window về mặt vật lý. 1M token mà precision giảm từ 200K thì vẫn không đủ."

Điều Agentmemory thực sự mang lại là semantic external brain - não thứ hai bên ngoài context window. Session kết thúc thì context xóa, nhưng memory ở ngoài vẫn còn. Session mới bắt đầu, đúng phần memory cần thiết được inject vào - không phải dump hết 22.000 tokens vào.

Bộ nhớ được dùng thường xuyên thì mạnh dần. Bộ nhớ không dùng thì decay. Giống cách bộ não người hoạt động - và đây là điểm khác biệt cốt lõi so với CLAUDE.md hay auto-memory.

Cả ngành đang đi theo hướng này: DeepLearning.AI có course về agent memory, Mem0 nói "stateless agents cần trở thành stateful", MemGPT paper mô tả "LLMs as Operating Systems". Agentmemory là một implementation cụ thể cho coding agent use case.

Nếu bạn dùng một tool AI thì CLAUDE.md đủ rồi. Nếu bạn dùng Codex + Claude Code + Cursor cùng lúc, làm nhiều project song song, hay làm việc trong team với AI agents - Agentmemory đáng để thử. Setup 3 phút, kết quả rõ ngay từ ngày thứ 2.

via agentmemory - Apache 2.0, 20k Stars, cập nhật liên tục.