Andrej Karpathy vừa cho bạn khoá học LLM tốt nhất thế giới - miễn phí trên YouTube

TL;DR

Andrej Karpathy - người sáng lập OpenAI, cựu Director of AI tại Tesla - vừa đăng lên YouTube một video dài 3h31m mang tên "Deep Dive into LLMs like ChatGPT". Đây là lần đầu tiên toàn bộ pipeline xây dựng một mô hình ngôn ngữ lớn được giải thích từ đầu đến cuối, theo cách mà bất kỳ ai cũng có thể hiểu được - hoàn toàn miễn phí.

Không có khoá học trả phí nào trên thị trường hiện tại bao phủ đầy đủ từng tầng kiến thức như thế này: từ pretraining data, tokenization, kiến trúc Transformer, hallucinations, tool use, reinforcement learning, RLHF cho đến DeepSeek-R1 và bài học từ AlphaGo.

Andrej Karpathy giảng về LLMs với ChatGPT interface

Karpathy là ai - và tại sao bạn nên nghe ông ấy

Tên đầy đủ: Andrej Karpathy. Tiểu sử ngắn:

PhD tại Stanford dưới sự hướng dẫn của Fei-Fei Li, chuyên ngành computer vision & NLP
Thiết kế và giảng dạy CS231n - khoá deep learning đầu tiên tại Stanford, từ 150 sinh viên năm 2015 lên 750 sinh viên năm 2017
Founding member tại OpenAI (2015-2017)
Director of AI tại Tesla (2017-2022) - dẫn dắt toàn bộ computer vision team cho Autopilot
Quay lại OpenAI (2023-2024) để xây dựng team midtraining và synthetic data

Video này thuộc series Eureka Labs - sáng kiến mới của Karpathy nhằm phổ cập giáo dục AI. Trong khi nhiều khoá học LLM dạy cách dùng công cụ, Eureka Labs tập trung vào hiểu tại sao và như thế nào hệ thống được xây dựng.

Pipeline đầy đủ - từ internet đến assistant

Karpathy chia video thành 3 giai đoạn chính, phản ánh đúng cách các công ty như OpenAI, Anthropic, Google xây dựng model:

Giai đoạn 1 - Pretraining: Mô hình bắt đầu bằng cách ăn toàn bộ internet. Karpathy lấy ví dụ FineWeb dataset - 15 trillion token, 1.2 tỷ trang web, nén lại còn 44 terabyte. Dữ liệu thô được xử lý qua tokenization: thuật toán Byte Pair Encoding (BPE) nén ngôn ngữ thành các đơn vị nhỏ hơn. GPT-4 dùng đúng 100,277 token khác nhau. Sau đó Transformer neural network học cách dự đoán token tiếp theo từ chuỗi đã có.

Giai đoạn 2 - Post-training (SFT): Base model sau pretraining chỉ là "autocomplete xịn" - nó không phải assistant. Để biến nó thành người giúp việc, các công ty thuê human labelers viết hàng trăm nghìn cặp prompt-response mẫu. Model học bắt chước những phản hồi đó. Pretraining tốn khoảng 3 tháng trên hàng nghìn GPU; post-training SFT chỉ cần khoảng 3 tiếng.

Giai đoạn 3 - Reinforcement Learning: RL và RLHF là frontier mới nhất. Với các bài toán có đáp án verifiable (toán, code), model tự khám phá "chain of thought" - tự học cách chia nhỏ vấn đề, backtrack, reframe. DeepSeek-R1 là ví dụ điển hình: model phát triển chuỗi suy nghĩ dài tự nhiên mà không ai hardcode vào. Karpathy so sánh điều này với AlphaGo - "Move 37" nổi tiếng, nước cờ không một con người nào nghĩ ra nhưng AI lại phát hiện thông qua reinforcement learning.

Những con số đáng nhớ

Điểm dữ liệu	Con số
Chi phí train GPT-2 (2019)	~$40,000
Karpathy tái tạo GPT-2 hôm nay	$672 (có thể xuống ~$100)
GPT-4 vocabulary size	100,277 tokens (BPE)
FineWeb dataset	15 nghìn tỷ tokens / 44 TB
Llama 3.1 - model lớn nhất	405 tỷ parameters, 15T tokens
Thời gian pretraining	~3 tháng (hàng nghìn GPU)
Thời gian SFT post-training	~3 tiếng

Ai nên xem ngay

Video này được thiết kế cho general audience - không cần background lập trình, không cần toán nâng cao. Đặc biệt có giá trị nếu bạn:

Đang dùng AI hằng ngày và muốn hiểu tại sao prompt này hoạt động còn prompt kia thì không
Build sản phẩm với LLM và cần hiểu hallucination, tool use, fine-tuning terms như chat_template, ChatML
Tò mò về DeepSeek-R1 và tại sao nó được xem là bước ngoặt về reasoning
Muốn prompt tốt hơn: Karpathy giải thích rõ tại sao model cần "token để suy nghĩ" - tức là bạn phải cho model không gian viết ra các bước trung gian, không nên ép nó nhảy thẳng đến đáp án

Nếu muốn đi sâu vào code, Karpathy có series song song: "Neural Networks: Zero to Hero" - track kỹ thuật từng bước một.

"Jagged intelligence" - điều AI không muốn bạn biết

Một trong những insight hay nhất của video: Karpathy giới thiệu khái niệm "jagged intelligence" - trí tuệ lởm chởm. Model có thể giải bài Olympic Vật lý cấp quốc tế nhưng lại không đếm được số chữ "r" trong từ "strawberry". Lý do không phải model ngốc - mà vì model không nhìn thấy ký tự, nó chỉ thấy token chunks.

Ứng dụng thực tế: khi cần đếm, spell check, hay tính toán chính xác, hãy bảo model "use code" - để Python interpreter làm việc đó thay vì mental arithmetic của neural network.

Xem ở đâu và bước tiếp theo

Video "Deep Dive into LLMs like ChatGPT" có sẵn hoàn toàn miễn phí trên YouTube. Sau khi xem xong, Karpathy cũng có video tiếp theo: "How I Use LLMs" (2h11m) - hướng dẫn thực tế cách áp dụng vào công việc hằng ngày.

Trong phần preview cuối video, Karpathy hé lộ hướng phát triển tiếp theo: khả năng multimodal (text + audio + image trong cùng một hệ thống), quản lý task dài hạn, và real-time learning. Đây là roadmap cho cả ngành, không chỉ riêng một sản phẩm.

Nguồn: @karpathy, karpathy.ai, CodingScape.