TL;DR

Tatsu Hashimoto giảng về LLM Architectures tại Stanford CS336

GS Tatsunori Hashimoto (Tatsu) - đồng giảng viên Stanford CS336 - vừa cập nhật bài giảng Lecture 3 "Architectures" cho khóa Spring 2026. Đây là bài phân tích toàn diện nhất hiện có về 19+ mô hình LLM dense từ 2017-2025, bao gồm GPT, LLaMA 2/3/4, Gemini/Gemma, Mistral, DeepSeek V2/V3, Qwen, Command, Grok. Bài giảng hoàn toàn miễn phí trên YouTube và trả lời câu hỏi mà nhiều kỹ sư AI đang thắc mắc: kiến trúc các LLM lớn khác nhau ở điểm nào, và tại sao ngành lại đi theo một hướng nhất định?

CS336 là gì và tại sao đáng học?

CS336 "Language Modeling from Scratch" là khóa học nổi tiếng tại Stanford, đồng giảng bởi Percy LiangTatsunori Hashimoto. Triết lý của khóa: thay vì dùng API cấp cao, sinh viên tự viết từng component - từ BPE tokenizer, transformer architecture, Flash Attention (Triton kernel), cho đến RLHF alignment - chỉ dùng PyTorch cơ bản.

Percy Liang tóm gọn lý do tồn tại của khóa học: "Các nhà nghiên cứu đang dần tách rời khỏi những chi tiết kỹ thuật của LLM. CS336 cố gắng sửa điều đó bằng cách để sinh viên tự xây dựng mọi thứ." Jeff Dean (Google) nhận xét thread giới thiệu CS336 "rất tuyệt" và ước mình còn là sinh viên.

Khóa có 5 assignments: (1) Tokenizer + transformer cơ bản, (2) GPU optimization + custom kernels, (3) Scaling laws, (4) Data curation, (5) Alignment. Toàn bộ lecture video công khai trên YouTube - không cần đăng ký.

Lecture 3 phân tích những gì?

Lecture 3 là bài survey dày nhất trong toàn khóa. Tatsu đi qua từng component kiến trúc và so sánh cách các model lớn xử lý khác nhau:

  • Normalization: Pre-norm vs. Post-norm - tại sao Pre-norm trở thành tiêu chuẩn, RMS Norm thay Layer Norm (nhanh hơn, ít tham số hơn), "double norm" trong Gemma 2 và Grok

  • Activation function: Lộ trình từ ReLU sang Gated Linear Units (GLU) - SwiGLU chiếm ưu thế hoàn toàn trong các model post-2023 (LLaMA, PaLM, Gemma)

  • Positional Embeddings: RoPE (Rotary Position Embeddings) đã thay thế toàn bộ: absolute embeddings, sinusoidal, ALiBi. Đến 2025, RoPE gần như phổ quát

  • MLP sizing: Non-gated: 4x hidden dim; GLU variants: 8/3x (~2.67x). Kaplan et al. xác nhận 4x gần tối ưu

  • Vocabulary size: Từ 30K-50K token (GPT đời đầu, LLaMA 1) lên 100K-250K (model đa ngôn ngữ, multimodal). GPT-4 tokenizer: ~100K

  • Attention variants: Multi-Head Attention (MHA) - Multi-Query Attention (MQA) - Group-Query Attention (GQA): xu hướng rõ ràng từ MHA sang GQA để tối ưu inference memory

Kết luận lớn: 3 nam hội tu ve cung mot thiet ke

Insight quan trọng nhất của Tatsu: các LLM lớn hiện đại không khác nhau nhiều như ta nghĩ. Đây là "convergent evolution" - tiến hóa hội tụ. Năm 2025, gần như mọi model production đều dùng:

Component

Winner

Ví dụ áp dụng

Normalization

Pre-norm + RMS Norm

LLaMA 3, Gemma 3, Mistral, DeepSeek

Activation

SwiGLU

LLaMA 2/3/4, PaLM, Gemma, Command

Position embedding

RoPE

Gần như toàn bộ LLM hiện đại

Attention

GQA

LLaMA 4, Gemma 3, Command A/R+

MLP ratio

4x (hoặc 8/3x với GLU)

Được xác nhận bởi Kaplan et al.

Một điểm bất ngờ khác: Dropout gần như bị loại bỏ hoàn toàn khỏi pre-training dù trực giác ban đầu cho rằng nó cần thiết. Weight decay vẫn được giữ - không phải để regularization mà vì tác dụng "implicit acceleration" trong giai đoạn cuối learning rate schedule.

Năm 2024 chứng kiến hai innovation về stability được nhiều model áp dụng: Z-Loss (ràng buộc softmax normalizer Z gần 1.0, tránh instability, dùng trong PaLM, Baichuan 2, DCLM) và QK Norm (layer norm trên queries và keys trước softmax, mượn từ vision training, "hiệu quả đến ngạc nhiên" theo Tatsu, dùng trong Gemma 2, DCLM).

Hai ngoại lệ đáng chú y nhat

DeepSeek V3 - MLA (Multi-head Latent Attention): Thay vì GQA thông thường, DeepSeek dùng MLA nén cặp key-value xuống latent space chiều thấp hơn trước khi cache, rồi project ngược lên khi inference. Kết quả: tiết kiệm bộ nhớ KV cache đáng kể - lý do quan trọng giúp DeepSeek training hiệu quả hơn.

LLaMA 4 - Context 10 triệu token: Để đạt 10M+ token context mà không bị vỡ memory, LLaMA 4 kết hợp full attention mỗi 4 block (không dùng RoPE) với sliding window attention + RoPE cho các block còn lại. Đây là innovation về attention pattern chứ không phải thay đổi core architecture.

Ai nên xem ngay?

Bài giảng này phù hợp nhất nếu bạn thuộc một trong các nhóm sau:

  • Researcher AI muốn hiểu bên trong GPT-4, Claude, Gemini - không chỉ dùng API

  • Engineer đang fine-tune hoặc pre-train LLM, cần hiểu tại sao architecture lại thiết kế như vậy

  • Sinh viên đang học LLM và muốn đi sâu hơn course level thông thường

  • Bất kỳ ai muốn biết LLaMA 3 khác DeepSeek V3 ở kiến trúc tầng nào

Yêu cầu: kiến thức Python/PyTorch và deep learning cơ bản giúp hiểu lecture tốt hơn, nhưng không bắt buộc chỉ để xem và nắm ý chính.

Xem ở đâu và bước tiếp theo

Toàn bộ CS336 Spring 2026 miễn phí trên YouTube. Nếu muốn đi sâu hơn, Spring 2025 có lecture notes và code trên GitHub (stanford-cs336/spring2025-lectures). Lecture 3 Architectures là điểm vào tốt nhất - có thể xem độc lập mà không cần xem theo thứ tự.

Như @berryxia nhận xét khi giới thiệu bài này: "Instead of mindlessly scrolling through endless feeds, why not dive in and really watch it!" - một lời khuyên rất đáng nghe.

Via: Stanford CS336, Lecture 3 Spring 2026 (YouTube), Lecture 3 Spring 2025 (YouTube).