LLM Wiki: Karpathy Giải Bài Toán Quản Lý Kiến Thức 80 Năm - P1: Nền Tảng và Kiến Trúc

TL;DR

Karpathy đề xuất mô hình LLM Wiki vào tháng 4/2026: thay vì RAG tìm kiếm lại từ đầu, LLM sẽ incrementally duy trì một wiki markdown persistent.
Ba lớp nền tảng: raw/ (nguồn bất biến), wiki/ (do LLM duy trì), schema/ (quy tắc chung).
Gist chỉ 75 dòng nhưng giải quyết bài toán 80 năm mà Vannevar Bush đặt ra từ 1945.
Kỹ sư 岚叔 đã hiện thực hóa thành lanshu-wiki-skill và xây 7 wiki projects thực tế.

Bài toán 80 năm chưa ai giải được

Năm 1945, Vannevar Bush mô tả thiết bị Memex trong bài luận As We May Think - một kho kiến thức cá nhân có thể tạo "đường liên tưởng" giữa các tài liệu. Ý tưởng về một bộ não thứ hai, nơi kiến thức được liên kết và tích lũy, đã ám ảnh giới công nghệ suốt 80 năm. Nhưng tất cả các nỗ lực đều thất bại vì một lý do duy nhất: chi phí duy trì tăng theo hàm số mũ khi dữ liệu phình to.

Zettelkasten, card box, Notion, Obsidian - con người rốt cuộc đều bỏ cuộc. Hệ thống hoạt động tốt lúc đầu, nhưng sau vài tháng, việc cập nhật liên kết, xử lý mâu thuẫn, và đồng bộ hóa thông tin mới trở nên quá tốn sức. RAG (Retrieval-Augmented Generation) trông như giải pháp, nhưng mỗi lần query nó vẫn tìm kiếm lại từ tài liệu thô - kiến thức không tích lũy, không compound.

Bush đặt ra câu hỏi: "Ai sẽ duy trì những mối liên kết đó?" Câu trả lời chờ đợi suốt 80 năm, đến tháng 4/2026 mới được Andrej Karpathy gợi ý.

Karpathy và 75 dòng thay đổi cuộc chơi

Ngày 4 tháng 4 năm 2026, Karpathy publish một GitHub gist chỉ 75 dòng với tiêu đề đơn giản: llm-wiki. Hai tuần sau, gist đó đạt 5,000+ stars, hàng trăm fork, và hàng loạt bài viết phân tích trên Medium, VentureBeat và Substack.

Ý tưởng cốt lõi đơn giản đến bất ngờ: thay vì để LLM trả lời câu hỏi bằng cách tìm kiếm lại tài liệu thô mỗi lần (RAG), hãy để LLM incrementally xây dựng và duy trì một wiki markdown persistent. Cross-reference được tạo sẵn, mâu thuẫn được đánh dấu trước, tổng hợp đã hoàn thành. Người dùng lo chiến lược và đặt câu hỏi - LLM lo toàn bộ tóm tắt, liên kết, lưu trữ.

So sánh trực tiếp:

RAG: query → tìm kiếm tài liệu thô → tổng hợp tạm thời → lặp lại từ đầu lần sau
LLM Wiki: ingest → cập nhật wiki persistent → compound knowledge → query nhanh hơn theo thời gian

Đây chính là câu trả lời cho câu hỏi của Bush: LLM sẽ duy trì những liên kết đó.

RAG vs LLM Wiki - so sánh hai mô hình — RAG tìm kiếm lại từ đầu mỗi lần; LLM Wiki tích lũy kiến thức theo thời gian.

Ba lớp kiến trúc: xương sống của mọi wiki

Karpathy mô tả cấu trúc ba lớp rõ ràng, và mọi implementation tốt đều tuân theo:

Lớp 1 - raw/ (nguồn bất biến): Toàn bộ tài liệu gốc - source code, PDF, snapshot trang web. Không bao giờ chỉnh sửa. Đây là "neo chân lý" - khi có nghi ngờ, ta quay lại đây để kiểm chứng.

Lớp 2 - wiki/ (do LLM duy trì): Kiến thức đã được "biên dịch" - concept page, entity page, synthesis page. Cross-reference, đối chiếu mâu thuẫn, và tóm tắt đều được LLM xử lý trước và lưu vào đây. Người dùng query vào lớp này thay vì lớp raw.

Lớp 3 - schema/ (quy tắc chung): File CLAUDE.md hoặc SCHEMA.md - chứa quy tắc đặt tên, hệ thống tag, quy trình ingest. Đây là "giáo án" mà người dùng dạy cho LLM. Consistency của toàn bộ wiki phụ thuộc vào lớp này.

Ba thành phần bắt buộc xuyên suốt mọi wiki:

index.md: danh sách phẳng toàn bộ trang wiki (LLM đọc đầu mỗi phiên làm việc)
log.md: nhật ký thao tác - đảm bảo liên tục xuyên phiên
[[wikilinks]]: liên kết hai chiều tương thích Obsidian

Hai paradigm áp dụng thực tế

Karpathy đề xuất paradigm chung cho kho kiến thức cá nhân, nhưng khi engineer hóa, cộng đồng nhận ra hai use case khác biệt đủ để có cấu trúc riêng:

Paradigm	Dùng cho	Cấu trúc
Kho kiến thức cá nhân	Ghi chú đọc sách, tổng hợp đa lĩnh vực	5 lớp: raw / sources / entities / concepts / syntheses
Wiki kiến trúc code	Theo dõi source code open source	3 lớp: concepts / entities / changelog

Paradigm thứ hai - wiki kiến trúc code - là điểm đặc biệt trong bài viết của kỹ sư 岚叔: dùng LLM để đọc toàn bộ source code một dự án open source, rồi build một wiki có thể truy vấn nhanh hơn đọc source trực tiếp.

7 wiki thực tế chứng minh paradigm hoạt động

Ngay sau khi đọc gist của Karpathy, 岚叔 (handle: cclank) bắt tay làm ngay. 4 ngày sau: wiki đầu tiên. 6 ngày sau: wiki thứ hai. Đến nay đã có 7 project:

lanshu-wiki-skill: đóng gói toàn bộ paradigm thành Claude Code skill, người mới có thể bắt đầu trong 5 phút
x-algorithm-wiki: wiki về thuật toán For You của xAI/X - 34 trang / 6,800+ dòng, xem online
Hermes-Wiki: Nous Research hermes-agent - 45 trang / 26 changelog
OpenClaw-wiki: multi-channel AI gateway - 41 trang / 21,800+ dòng
lanshu-wiki-web: Next.js viewer với D3 knowledge graph, Cmd+K search, [[wikilink]] navigation
llm-video-wiki: thử nghiệm mở rộng paradigm sang video
Personal wiki: kho kiến thức cá nhân (private)

Kết quả thực tế: tra cứu bất kỳ module nào trong Hermes Agent nhanh hơn đọc source code trực tiếp; giải thích thuật toán X cho đồng nghiệp bằng cách gửi link wiki thay vì lecture một giờ; phát hiện mâu thuẫn giữa hôm nay và hôm qua trong cách hiểu source code - wiki tự báo.

Kết

LLM Wiki không phải một tool hay một framework - đây là một paradigm thay đổi cách chúng ta tích lũy và truy vấn kiến thức. Ba lớp raw/wiki/schema đơn giản đến mức bất kỳ ai cũng có thể hiểu trong 10 phút, nhưng sâu sắc đến mức giải quyết bài toán mà Bush chưa tìm được câu trả lời suốt 80 năm.

Phần tiếp theo sẽ đi sâu vào ba thao tác cốt lõi - Ingest, Query, Lint - và cách lanshu-wiki-skill đóng gói chúng thành một Claude Code skill có thể dùng ngay.

via Karpathy llm-wiki gist - via lanshu-wiki-skill