TL;DR

  • LLM Wiki có ba thao tác nền tảng: Ingest (nhập và cấu trúc hóa tài liệu mới), Query (truy vấn tổng hợp đa nguồn), Lint (quét lỗi tự động định kỳ).
  • Mỗi thao tác có kỷ luật riêng - vi phạm bất kỳ điều nào sẽ làm wiki mất đi thuộc tính "đáng tin".
  • lanshu-wiki-skill đóng gói toàn bộ thành Claude Code skill, trigger bằng ngôn ngữ tự nhiên.
  • Liên tục xuyên phiên nhờ ba file: CLAUDE.md (schema), index.md (điều hướng), log.md (nhật ký 10 mục gần nhất).

Ingest - Nhập liệu có kỷ luật

Ingest là thao tác đầu vào: đưa một tài liệu mới vào wiki. Nghe đơn giản, nhưng đây là bước dễ sai nhất nếu bỏ qua quy trình. Theo schema của Karpathy, một lần ingest đúng chuẩn trải qua 8 bước:

  1. Đọc toàn bộ tài liệu gốc - không được chỉ đọc tiêu đề
  2. Thảo luận với người dùng về điểm chính để xác nhận hiểu đúng
  3. Tìm trong index.md xem đã có trang gần nghĩa chưa - tránh tạo trùng
  4. Lưu bản gốc vào raw/ (không bao giờ chỉnh sửa sau đó)
  5. Tạo trang tóm tắt trong sources/, đánh nhãn độ tin cậy: peer-reviewed / official / expert / social / unknown
  6. Đọc toàn bộ các trang liên quan trước khi quyết định cập nhật - không được chỉ đọc tóm tắt trong index
  7. Trích xuất entities và concepts, tạo syntheses nếu cần
  8. Cập nhật index.mdlog.md

Bước 6 là điểm mà nhiều người bỏ qua nhất - và cũng gây ra lỗi nghiêm trọng nhất: LLM chỉ đọc tóm tắt một dòng trong index rồi cập nhật trang, bỏ qua thông tin quan trọng trong phần thân trang. Kết quả là thông tin bị mất hoặc bị ghi đè sai.

Điều kiện bất biến của Ingest: mọi kết luận phải truy ngược được đến file:dòng trong source code hoặc URL gốc. Không có anchor = không được viết. Đây là điểm phân biệt wiki với "AI tóm tắt tự do".

Query - Hỏi sâu hơn RAG nhiều lần

Khi wiki đã được xây, Query là thao tác khai thác giá trị. Khác với RAG phải tìm kiếm lại từ tài liệu thô, LLM chỉ cần đọc các trang wiki liên quan - vốn đã được tổng hợp, cross-reference sẵn - để trả lời.

Một điểm thú vị trong thiết kế: khi câu trả lời đủ "nặng" - tổng hợp từ 3 nguồn trở lên, đối chiếu đa lĩnh vực, hoặc tiết lộ mối liên hệ mới - nó tự động được lưu vào syntheses/ như một trang mới. Tức là mỗi lần hỏi hay, wiki trở nên giàu hơn.

Ví dụ thực tế từ x-algorithm-wiki: thay vì giải thích thuật toán For You của X bằng cách đọc hàng nghìn dòng Go code, 岚叔 chỉ gửi link wiki cho đồng nghiệp. Câu trả lời chi tiết, có anchor đến source code, đã sẵn trong wiki.

Lint - Giữ wiki sạch và chính xác

Wiki không có cơ chế tự làm sạch sẽ mục rữa dần theo thời gian. Lint là thao tác định kỳ để phát hiện 9 loại vấn đề tự động:

  • Mâu thuẫn - cùng chủ đề nhưng kết luận khác nhau ở các trang khác nhau
  • Trang lỗi thời - anchor trỏ đến dòng code đã bị xóa hoặc đổi tên
  • Trang mồ côi - không có trang nào link đến
  • Wikilink treo - [[tên trang]] không tồn tại
  • Tag gần nghĩa - ví dụ recsysrecommendation-system tồn tại song song
  • Tóm tắt index không khớp với nội dung trang thực
  • Câu hỏi chưa giải quyết bị bỏ rơi
  • Trang thiếu trường frontmatter bắt buộc
  • Source đánh nhãn sai độ tin cậy

Khi build x-algorithm-wiki, 岚叔 kiểm tra 29 trang với 482 anchor. Kết quả: phát hiện 3 sai lệch thực sự - kích thước mini model, số lượng scorer, và cấu hình candidate isolation mask. Tất cả được ghi vào changelog thay vì sửa thầm lặng - đảm bảo audit trail.

Cấu trúc Claude Code skill cho LLM Wiki
lanshu-wiki-skill: SKILL.md định tuyến lệnh, wiki/CLAUDE.md chứa schema dày, index.md và log.md đảm bảo liên tục xuyên phiên.

Claude Code Skill - trigger bằng ngôn ngữ tự nhiên

lanshu-wiki-skill đóng gói toàn bộ ba thao tác thành một Claude Code skill hai tầng:

~/.claude/skills/wiki/
  SKILL.md         # Lớp định tuyến mỏng: trigger word + command tree + hướng dẫn tạo wiki mới
~/wiki/
  CLAUDE.md        # Lớp schema dày: định dạng trang, hệ thống tag, quy trình ingest chi tiết

Bộ lệnh đầy đủ: /wiki add, /wiki ingest, /wiki query, /wiki lint, /wiki status, /wiki deprecate, /wiki retract, /wiki merge. Nhưng quan trọng hơn, skill cũng hiểu ngôn ngữ tự nhiên - nói "thêm bài này vào wiki" hay "wiki cái repo này" là nó tự hiểu phải làm gì.

Liên tục xuyên phiên làm việc

Đây là điểm kỹ thuật ít được nói đến nhưng rất quan trọng: làm thế nào LLM "nhớ" được ngữ cảnh giữa các phiên làm việc khác nhau?

Câu trả lời nằm ở ba file bắt buộc đọc đầu mỗi phiên mới:

  1. CLAUDE.md - toàn bộ schema và quy tắc
  2. index.md - danh sách phẳng toàn bộ trang và tóm tắt một dòng
  3. log.md - 10 thao tác gần nhất

Ba file này đủ để LLM tái lập bức tranh toàn cảnh của wiki mà không cần đọc lại từng trang. Đây là thiết kế tiết kiệm token nhưng đảm bảo coherence: tổng context load mỗi phiên chỉ vài nghìn token, trong khi wiki có thể chứa hàng trăm trang.

Kết

Ba thao tác Ingest / Query / Lint không chỉ là tính năng - chúng là kỷ luật đảm bảo wiki luôn "đáng tin". Bỏ qua một bước trong Ingest, wiki tích lũy sai sót. Không Lint định kỳ, wiki mục rữa theo code. Không thiết kế Query đúng, giá trị tích lũy của wiki không được khai thác.

Phần tiếp theo sẽ là hướng dẫn thực chiến 5 bước - từ clone source code đến có một wiki hoàn chỉnh có thể chia sẻ online, dựa trên case study thực tế x-algorithm-wiki.

via lanshu-wiki-skill - via x-algorithm-wiki