Foundations of Large Language Models - Cuốn sách 247 trang miễn phí bạn nên đọc ngay

TL;DR

Tong Xiao và Jingbo Zhu từ NLP Lab Northeastern University vừa cập nhật phiên bản v2 (tháng 6/2025) của cuốn "Foundations of Large Language Models" - sách học thuật 247 trang bao phủ toàn bộ kỹ thuật nền tảng LLM: pre-training, generative models, prompting, alignment và inference. Miễn phí hoàn toàn, có mặt trên arXiv dưới license CC BY-NC 4.0. Nếu bạn muốn hiểu LLM ở cấp độ toán học thay vì chỉ "dùng được", đây là tài nguyên hiếm có.

Cuốn sách này là gì

"Foundations of Large Language Models" (arXiv:2501.09223) là sản phẩm của nhóm nghiên cứu NiuTrans - một trong những lab NLP lâu đời nhất tại Trung Quốc. Sách được trích xuất và mở rộng từ dự án NiuTrans NLPBook (github.com/NiuTrans/NLPBook), một nguồn giảng dạy NLP toàn diện được xây dựng từ 2021.

Điều phân biệt cuốn sách này với hầu hết tài liệu LLM hiện có: nó không phải survey liệt kê mọi thứ, cũng không phải coding tutorial. Nó nằm ở vị trí giữa - lý thuyết nghiêm ngặt với ký hiệu toán học đầy đủ, nhưng vẫn self-contained đủ để đọc từng chương độc lập. Preface của sách phát biểu thẳng: tập trung vào foundational aspects, không phải comprehensive coverage.

LaTeX source có sẵn trên arXiv - giáo viên có thể adapt trực tiếp cho khóa học của mình.

Kiến trúc 5 chương

Diagram kiến trúc BERT Transformer encoder từ sách

Sách chia làm 5 chương, mỗi chương là một trụ cột kỹ thuật:

Ch.1 - Pre-training (tr. 1-35): Self-supervised learning, masked language modeling, BERT case study chi tiết (standard, larger, efficient variants, multilingual), decoder-only / encoder-only / encoder-decoder pre-training.
Ch.2 - Generative Models (tr. 36-94): Decoder-only Transformers, training + fine-tuning + aligning LLMs, long sequence modeling - RoPE, ALiBi, KV cache, position extrapolation/interpolation.
Ch.3 - Prompting (tr. 96-153): In-context learning, chain-of-thought, self-refinement, problem decomposition, ensembling, RAG, tool use, soft prompts, prompt optimization.
Ch.4 - Alignment (tr. 155-201): Instruction fine-tuning (SFT), RLHF với reward modeling đầy đủ, DPO, automatic preference data generation, step-by-step alignment, inference-time alignment.
Ch.5 - Inference (tr. 203-245): Prefilling & decoding, continuous batching, KV cache nâng cao, parallelization, và đặc biệt - inference-time scaling (context scaling, search scaling, output ensembling, generating & verifying thinking paths).

Toàn bộ sách dùng ký hiệu chuẩn hóa: Q, K, V matrices, ∂L/∂θ (gradient), KL(p||q), Pr(a|b), h_t (hidden state). Phương trình đánh số và cross-referenced xuyên suốt.

Tại sao đáng đọc

Vào đầu 2025, khi community AI tràn ngập tutorials "build chatbot trong 5 phút", một cuốn sách dám đặt ký hiệu toán học ở trang đầu tiên là điều hiếm gặp. Ba lý do cụ thể:

Chapter 5 về Inference-time scaling - đây là kỹ thuật đằng sau o1-style models (generating & verifying thinking paths). Rất ít textbook foundational nào cover topic này vì nó còn quá mới tính tới đầu 2025.
Alignment formal derivations - RLHF không chỉ giải thích conceptually mà có đầy đủ: RL basics, reward model training, policy training, DPO derivation. Đủ để researcher mới vào lĩnh vực bắt đầu implement.
Long-context modeling trong Ch.2 - RoPE, ALiBi, position interpolation được trình bày đồng thời với KV cache optimization - hiếm thấy được đặt cạnh nhau như vậy trong một resource duy nhất.

Cộng đồng Hacker News đón nhận cuốn sách này khi phát hành v1 và có một thread thảo luận sôi nổi (news.ycombinator.com/item?id=42799629). Một số người dùng ngay bằng cách prompt ChatGPT tạo lecture 2 tiếng từ PDF - điều đó nói lên rằng sách đủ structured để serve như giáo trình.

Ai nên đọc ngay

Cuốn sách tự định vị cho 3 nhóm, và thực tế phù hợp với cả 5:

Sinh viên / nghiên cứu sinh CS-AI-NLP: các chương self-contained, phù hợp làm reading list cho graduate course. Giáo viên có thể dùng LaTeX source để customize.
NLP practitioners chuyển sang LLM: Ch.1 bridge rõ ràng từ classical pre-training (word embeddings, ELMo) sang Transformer paradigm.
ML engineers triển khai LLM: Ch.5 thực tiễn - continuous batching, KV caching, parallelization đều ở đây.
Alignment researchers mới vào: Ch.4 có RLHF + DPO formal, đủ để bắt đầu research.
Builders RAG / prompting systems: Ch.3 chain-of-thought, self-refinement, RAG, tool use, soft prompts - rất applicable cho production systems.

Giới hạn cần biết

Trước khi đọc, nên biết những điều này:

Chưa peer-reviewed: là arXiv preprint, không qua formal academic review.
Không bao phủ multimodal, code LLMs, hay agent frameworks: scope giới hạn ở text-based language models.
Nhanh lỗi thời một phần: v2 cover đến late 2024; các model như o3, DeepSeek R2, Claude 3.7 extended thinking chưa có trong sách.
License CC BY-NC 4.0: không dùng thương mại (ví dụ trong khóa học trả phí) mà không xin phép tác giả.

Tải về và tài nguyên

Toàn bộ tài nguyên miễn phí:

PDF: arxiv.org/pdf/2501.09223
arXiv page: arxiv.org/abs/2501.09223
Parent NLPBook project: github.com/NiuTrans/NLPBook
LaTeX source: có sẵn trên arXiv (tải source.tar.gz)

Nguồn: arXiv 2501.09223, HuggingFace Papers, Hacker News discussion.

Foundations of Large Language Models - Cuốn sách 247 trang miễn phí bạn nên đọc ngay

TL;DR

Cuốn sách này là gì

Kiến trúc 5 chương

Tại sao đáng đọc

Ai nên đọc ngay

Giới hạn cần biết

Tải về và tài nguyên

Tiếp tục lướt

Andrej Karpathy vừa cho bạn khoá học LLM tốt nhất thế giới - miễn phí trên YouTube

7 GitHub repos để học AI thật sự trong 2026 (tất cả miễn phí)

PageIndex: Xuất sắc trong niche của nó - nhưng Twitter đang hype quá mức

Semantic Tooling 2026: 'Figma Moment' cho Ontology, Vibe Ontology và Cuộc Đua Benchmark LLM

Multi-Agent Orchestration: Khi AI biết phân công lao động