Harness Engineering (Phần 9): Memory và Skills không phải là plugin - chúng là cùng một World Model

TL;DR

Vasilije Markovic - co-founder Cognee - vừa đăng một thread gây chú ý: Memory APIs không phải là một product category khả thi, và Skill systems chỉ là markdown.

Luận điểm cốt lõi: cả hai đều thuộc về cùng một thứ - harness, hay nói cách khác là World Model của agent.

Cognee vừa raise $7.5M seed để hiện thực hóa tầm nhìn này, với kết quả benchmark đáng kể: DeepEval F1 tăng 314%, Exact Match tăng 1618% so với base RAG trên bộ test HotPotQA.

Vấn đề với cách làm hiện tại

Hầu hết các agent hệ thống đang xây dựng memory và skills như hai thứ hoàn toàn riêng biệt:

Memory plugin: lưu lịch sử hội thoại, user preference - rồi gọi API để truy xuất
Skill files: một thư mục chứa các file SKILL.md mô tả "để làm task T, chạy bước X, Y, Z"

Khi skill collection còn nhỏ, cách này hoạt động ổn. Nhưng khi scale lên, agent bắt đầu scan hàng đống markdown, dùng keyword matching thô sơ, và re-plan từ đầu mỗi lần. Tệ hơn: trong môi trường động, skill files xuống cấp mà không có tín hiệu rõ ràng - chúng không có vòng lặp để học từ failure. Mỗi session mới, agent lại bắt đầu từ zero.

Đây là lý do tại sao bạn không thể xây dựng một agent thực sự hiệu quả chỉ bằng RAG + markdown files.

Luận điểm cốt lõi: tất cả là World Model

Memory + Skills = World Model - Cognee harness diagram

Markovic định nghĩa World Model là toàn bộ context mà harness load để quyết định bước tiếp theo của agent: codebase layout, tool schemas, file system, 20 turns chat gần nhất, user preferences - tất cả cộng lại.

"Memory observes the world while skills codifies it into a rule. There's no clean line between them because there should not be one."

Sự phân biệt ông đề xuất:

Memory - broad harness: quan sát thế giới, lưu execution traces, tích lũy kinh nghiệm
Skill - specific harness: mã hóa kinh nghiệm đó thành quy trình tái sử dụng, compressed procedure

Skill thực ra là một tuyên bố rút gọn: "thế giới đã phản ứng với X, Y, Z bằng kết quả T trong quá khứ, và nhiều khả năng sẽ làm vậy lại." Đây không phải là hai loại dữ liệu khác nhau - chúng là hai biểu hiện của cùng một knowledge graph.

Cognee hiện thực hóa như thế nào

The Self-Improvement Loop: Observe, Inspect, Amend, Evaluate

Cognee lưu memory và skills trên cùng một đồ thị (graph nodes). API mới chỉ cần 1 dòng để ingest toàn bộ skills folder:

cognee.remember("skills/")

Bên trong, khi skill thay đổi, một SkillChangeEvent tự động emit memory events. Skill không còn là file tĩnh - nó là một memory node có thể evolve, trace, và kiểm soát được.

Vòng lặp self-improvement hoạt động như sau:

Ingest: SKILL.md được parse thành structured graph objects - không còn chỉ là text trong thư mục
Cognify: LLM enrichment tạo task patterns, trigger phrases, complexity level - kết nối chúng vào knowledge graph
Route: khi task mới đến, routing kết hợp semantic similarity + historical success rates - câu hỏi không phải "skill nào giống nhất?" mà là "skill nào thường work cho loại task này?"
Observe & Promote: sau khi skill được dùng, kết quả vào short-term memory (Redis), rồi promote() đẩy lên long-term graph, cập nhật preference weights

Cả successes lẫn failures đều có giá trị: thành công dạy router tin tưởng skill nào hơn, thất bại dạy nó tránh gì.

Số liệu đáng chú ý

Benchmark trên 24 câu hỏi HotPotQA, 45 lần chạy lặp lại trên Modal Cloud:

Metric	Cognee	Với CoT	Base RAG
DeepEval Correctness	0.85	+49%	0.4
DeepEval F1	0.84	+314%	-
Exact Match (EM)	0.69	+1618%	-
Human-like Correctness	0.93	+25%	-

Trong production: 1M+ pipelines/tháng, 70+ doanh nghiệp bao gồm Bayer và University of Wyoming. Hackathon tháng 5/2026: 21 LLM Knowledge Wikis được xây trong 3 giờ dùng Cognee + Redis làm session store.

Ai nên dùng và giới hạn

Cognee phù hợp nhất với teams cần institutional knowledge - không phải chỉ lưu conversation history. Cụ thể:

Agent chạy repeated tasks trên cùng domain (procurement, code review, customer support)
Corrections từ human cần "stick" qua các session
Data source đa dạng: documents, audio, images (38+ formats, 30+ connectors)

Giới hạn thực tế: Python-only (không có TypeScript hay Go SDK), community còn nhỏ hơn Mem0 hay Zep, managed cloud tương đối mới. Nếu chỉ cần lưu conversation context đơn giản - đây là overkill. Pricing: free open source (Apache 2.0, 12K+ GitHub stars), Platform €8.50/1M tokens, On-prem €1,970/tháng.

Góc nhìn

Luận điểm này không hoàn toàn mới - các framework như Letta (MemGPT) hay Hindsight cũng đang tiến theo hướng tương tự. Điểm khác biệt của Cognee là cụ thể hóa bằng code: thay vì tranh luận triết học, họ cho thấy SkillChangeEvent emits memory events, observe() và promote() tạo vòng lặp học, routing kết hợp semantic + historical signal.

Câu hỏi thực sự không phải là "memory hay skills" - mà là: agent của bạn có đang học từ mỗi lần chạy không, hay vẫn bắt đầu từ zero mỗi session? Nếu câu trả lời là cái sau, thì dù bạn gọi cách tiếp cận của mình là gì, bạn vẫn chưa có world model thật sự.

via Cognee Blog - Externalization in LLM Agents (arxiv 2604.08224)