TL;DR

Andrej Karpathy vừa publish một GitHub Gist mô tả cách xây personal knowledge base với AI mà không cần database, không cần code phức tạp. Ý tưởng cốt lõi: thay vì dùng RAG (Retrieval-Augmented Generation) truyền thống, bạn để LLM tự xây và duy trì một wiki gồm plain markdown files - wiki này ngày càng giàu hơn theo thời gian. Community đã build ra hàng chục tool mở rộng chỉ trong vài tuần.

Vấn đề bạn đang mắc phải

Bạn bookmark bài viết rồi không bao giờ đọc lại. Bạn save notes rồi không tìm thấy khi cần. Bạn hỏi AI một câu tuần này, tuần sau hỏi lại y chang và nhận được câu trả lời hơi khác. Không có gì tích lũy.

Vấn đề không phải là bạn thiếu thông tin. Vấn đề là bạn không thể truy xuất nó khi cần, và AI thì không nhớ gì từ session trước.

Karpathy gọi đây là "knowledge reset" - mỗi lần mở chat mới là bắt đầu từ zero. Giải pháp ông đề xuất: đừng để knowledge ở trong chat history. Hãy để nó ở trong files.

Kiến trúc 3 tầng - 5 phút để setup

Toàn bộ hệ thống là 3 thư mục:

  • raw/ - kho lưu nguồn gốc. Articles, papers, meeting notes, screenshots, bookmarks. Đổ vào đây, không cần sắp xếp. LLM đọc nhưng không bao giờ sửa - đây là source of truth bất biến.

  • wiki/ - nơi LLM viết phiên bản đã tổng hợp. Summaries, topic pages, so sánh, index. Bạn đọc, LLM viết.

  • outputs/ - kết quả khi bạn hỏi: báo cáo, phân tích, câu trả lời chi tiết.

Đó là toàn bộ kiến trúc. Ba thư mục. Không database. Không vector embeddings. Không server.

Lý do nó hoạt động: Claude 3.5 Sonnet có context window 200.000 tokens - tương đương 150.000 words, gần bằng 2 cuốn tiểu thuyết. Với một personal knowledge base 50.000-100.000 words (quy mô thực tế của người dùng tích cực), toàn bộ wiki fit gọn vào một inference call. LLM thấy tất cả mọi thứ cùng lúc, tạo connections mà RAG truyền thống không thể làm được.

File quan trọng nhất: schema CLAUDE.md

Tạo file CLAUDE.md (hoặc AGENTS.md nếu dùng Codex) ở root project. Đây là "training manual" cho AI - không có file này, AI sẽ đoán mò cách tổ chức. Có file này, mọi output đều có cấu trúc nhất quán.

Template cơ bản:

# Knowledge Base Schema

## What This Is
A personal knowledge base about [YOUR TOPIC].

## How It's Organized
- raw/ contains unprocessed sources. Never modify these files.
- wiki/ contains the organized wiki. AI maintains this entirely.
- outputs/ contains generated reports and analyses.

## Wiki Rules
- Every topic gets its own .md file in wiki/
- Every wiki file starts with a one-paragraph summary
- Link related topics using [[topic-name]] format
- Maintain an INDEX.md listing every topic
- When new sources are added, update relevant wiki articles

## My Focus Areas
[3-5 topics this knowledge base centers on]

Schema file này là điểm khác biệt cốt lõi: nó biến LLM từ một chatbot tổng quát thành một wiki maintainer có kỷ luật. LLM và bạn cùng evolve file này theo thời gian khi bạn phát hiện ra cái gì hoạt động tốt cho domain của mình.

Vòng lặp kép - làm hệ thống giá trị theo thời gian

Khi wiki đã có 10+ articles, bắt đầu query:

  • "Dựa trên wiki/, đâu là 3 gap lớn nhất trong hiểu biết của tôi về [topic]?"

  • "So sánh nguồn A và nguồn B về [concept]. Chúng bất đồng ở đâu?"

  • "Viết briefing 500 words về [topic] chỉ dùng thông tin trong knowledge base này."

Điểm mấu chốt: save câu trả lời tốt trở lại vào knowledge base. Mỗi phân tích bạn yêu cầu, mỗi connection bạn phát hiện - đây là thông tin valuable và không nên biến mất vào chat history. Đây là vòng lặp kép: nguồn mới làm wiki giàu hơn, câu hỏi tốt cũng làm wiki giàu hơn.

LLM duy trì 2 file đặc biệt:

  • index.md - catalog toàn bộ wiki, mỗi page với link và tóm tắt 1 dòng. LLM đọc index trước khi drill vào specific pages.

  • log.md - append-only record của mọi thứ đã xảy ra: ingest, query, maintenance pass. Timeline của wiki evolution.

Bảo trì hàng tháng - không thể bỏ qua

Mỗi tháng một lần, chạy health check:

"Review toàn bộ wiki/. Flag contradictions giữa các articles. 
Tìm topics được nhắc nhưng chưa có page riêng. 
List claims không có nguồn trong raw/. 
Suggest 3 articles mới để lấp gaps."

Bước này quan trọng vì LLM Wiki là lossy compression. Khi LLM tóm tắt raw documents vào wiki pages, nó có thể drop exact wording, minority views, subtle caveats. Nếu bạn save một summary hơi sai trở lại, câu trả lời tiếp theo sẽ build trên cái sai đó. Health check là quality control ngăn errors compound.

Giới hạn cần biết trước khi bắt đầu

Pattern này không phải silver bullet. Một số điểm quan trọng:

Tình huống

Phù hợp

Personal research, 10-100 sources

Tốt nhất

Team wiki, 100-500 sources

Cần thêm tooling (graph traversal)

Enterprise, 1000+ sources, multi-user

RAG vẫn cần thiết

Community đã build tools để extend khi cần: Keppi thêm graph traversal layer cho 1500+ notes, SPATE thêm Prompt IDs để trace mọi wiki entry về source gốc (chống hallucination propagation), Kompl chạy NLP pre-processing trước khi đưa cho LLM để giảm noise và API cost.

Bạn không cần Obsidian plugins. Ba thư mục và một schema file sẽ outperform fancy tool stack 90% thời gian - vì bạn đang dùng nó thay vì config nó.

Bắt đầu cuối tuần này

Setup mất 5 phút. Đổ content vào raw/ mất 10 phút. Câu lệnh cho AI:

"Đọc tất cả trong raw/. Compile một wiki trong wiki/ 
theo rules trong CLAUDE.md. Tạo INDEX.md trước, 
rồi một .md file cho mỗi major topic. Link related topics. 
Summarize mỗi source."

Rồi để AI làm việc. Khi xong, bạn có thư mục wiki/ với organized articles, connections bạn chưa từng nghĩ đến, summaries của những thứ bạn đã quên save, và một index làm mọi thứ searchable trong vài giây.

Nguồn: Karpathy llm-wiki.md GitHub Gist, MindStudio, HackerNoon.