- Karpathy phát hành video 3h31m "Deep Dive into LLMs like ChatGPT" - bao trọn pipeline từ tokenization, transformer đến RLHF và DeepSeek-R1, hoàn toàn miễn phí.
- GPT-2 từng tốn $40,000 để train năm 2019, Karpathy tái tạo lại với $672 và chứng minh con số đó có thể xuống $100 hôm nay.
- Không cần background lập trình, không cần toán - chỉ cần 3 tiếng rưỡi đầu tư một lần.
TL;DR
Andrej Karpathy - người sáng lập OpenAI, cựu Director of AI tại Tesla - vừa đăng lên YouTube một video dài 3h31m mang tên "Deep Dive into LLMs like ChatGPT". Đây là lần đầu tiên toàn bộ pipeline xây dựng một mô hình ngôn ngữ lớn được giải thích từ đầu đến cuối, theo cách mà bất kỳ ai cũng có thể hiểu được - hoàn toàn miễn phí.
Không có khoá học trả phí nào trên thị trường hiện tại bao phủ đầy đủ từng tầng kiến thức như thế này: từ pretraining data, tokenization, kiến trúc Transformer, hallucinations, tool use, reinforcement learning, RLHF cho đến DeepSeek-R1 và bài học từ AlphaGo.

Karpathy là ai - và tại sao bạn nên nghe ông ấy
Tên đầy đủ: Andrej Karpathy. Tiểu sử ngắn:
- PhD tại Stanford dưới sự hướng dẫn của Fei-Fei Li, chuyên ngành computer vision & NLP
- Thiết kế và giảng dạy CS231n - khoá deep learning đầu tiên tại Stanford, từ 150 sinh viên năm 2015 lên 750 sinh viên năm 2017
- Founding member tại OpenAI (2015-2017)
- Director of AI tại Tesla (2017-2022) - dẫn dắt toàn bộ computer vision team cho Autopilot
- Quay lại OpenAI (2023-2024) để xây dựng team midtraining và synthetic data
Video này thuộc series Eureka Labs - sáng kiến mới của Karpathy nhằm phổ cập giáo dục AI. Trong khi nhiều khoá học LLM dạy cách dùng công cụ, Eureka Labs tập trung vào hiểu tại sao và như thế nào hệ thống được xây dựng.
Pipeline đầy đủ - từ internet đến assistant
Karpathy chia video thành 3 giai đoạn chính, phản ánh đúng cách các công ty như OpenAI, Anthropic, Google xây dựng model:
Giai đoạn 1 - Pretraining: Mô hình bắt đầu bằng cách ăn toàn bộ internet. Karpathy lấy ví dụ FineWeb dataset - 15 trillion token, 1.2 tỷ trang web, nén lại còn 44 terabyte. Dữ liệu thô được xử lý qua tokenization: thuật toán Byte Pair Encoding (BPE) nén ngôn ngữ thành các đơn vị nhỏ hơn. GPT-4 dùng đúng 100,277 token khác nhau. Sau đó Transformer neural network học cách dự đoán token tiếp theo từ chuỗi đã có.
Giai đoạn 2 - Post-training (SFT): Base model sau pretraining chỉ là "autocomplete xịn" - nó không phải assistant. Để biến nó thành người giúp việc, các công ty thuê human labelers viết hàng trăm nghìn cặp prompt-response mẫu. Model học bắt chước những phản hồi đó. Pretraining tốn khoảng 3 tháng trên hàng nghìn GPU; post-training SFT chỉ cần khoảng 3 tiếng.
Giai đoạn 3 - Reinforcement Learning: RL và RLHF là frontier mới nhất. Với các bài toán có đáp án verifiable (toán, code), model tự khám phá "chain of thought" - tự học cách chia nhỏ vấn đề, backtrack, reframe. DeepSeek-R1 là ví dụ điển hình: model phát triển chuỗi suy nghĩ dài tự nhiên mà không ai hardcode vào. Karpathy so sánh điều này với AlphaGo - "Move 37" nổi tiếng, nước cờ không một con người nào nghĩ ra nhưng AI lại phát hiện thông qua reinforcement learning.
Những con số đáng nhớ
| Điểm dữ liệu | Con số |
|---|---|
| Chi phí train GPT-2 (2019) | ~$40,000 |
| Karpathy tái tạo GPT-2 hôm nay | $672 (có thể xuống ~$100) |
| GPT-4 vocabulary size | 100,277 tokens (BPE) |
| FineWeb dataset | 15 nghìn tỷ tokens / 44 TB |
| Llama 3.1 - model lớn nhất | 405 tỷ parameters, 15T tokens |
| Thời gian pretraining | ~3 tháng (hàng nghìn GPU) |
| Thời gian SFT post-training | ~3 tiếng |
Ai nên xem ngay
Video này được thiết kế cho general audience - không cần background lập trình, không cần toán nâng cao. Đặc biệt có giá trị nếu bạn:
- Đang dùng AI hằng ngày và muốn hiểu tại sao prompt này hoạt động còn prompt kia thì không
- Build sản phẩm với LLM và cần hiểu hallucination, tool use, fine-tuning terms như
chat_template,ChatML - Tò mò về DeepSeek-R1 và tại sao nó được xem là bước ngoặt về reasoning
- Muốn prompt tốt hơn: Karpathy giải thích rõ tại sao model cần "token để suy nghĩ" - tức là bạn phải cho model không gian viết ra các bước trung gian, không nên ép nó nhảy thẳng đến đáp án
Nếu muốn đi sâu vào code, Karpathy có series song song: "Neural Networks: Zero to Hero" - track kỹ thuật từng bước một.
"Jagged intelligence" - điều AI không muốn bạn biết
Một trong những insight hay nhất của video: Karpathy giới thiệu khái niệm "jagged intelligence" - trí tuệ lởm chởm. Model có thể giải bài Olympic Vật lý cấp quốc tế nhưng lại không đếm được số chữ "r" trong từ "strawberry". Lý do không phải model ngốc - mà vì model không nhìn thấy ký tự, nó chỉ thấy token chunks.
Ứng dụng thực tế: khi cần đếm, spell check, hay tính toán chính xác, hãy bảo model "use code" - để Python interpreter làm việc đó thay vì mental arithmetic của neural network.
Xem ở đâu và bước tiếp theo
Video "Deep Dive into LLMs like ChatGPT" có sẵn hoàn toàn miễn phí trên YouTube. Sau khi xem xong, Karpathy cũng có video tiếp theo: "How I Use LLMs" (2h11m) - hướng dẫn thực tế cách áp dụng vào công việc hằng ngày.
Trong phần preview cuối video, Karpathy hé lộ hướng phát triển tiếp theo: khả năng multimodal (text + audio + image trong cùng một hệ thống), quản lý task dài hạn, và real-time learning. Đây là roadmap cho cả ngành, không chỉ riêng một sản phẩm.
Nguồn: @karpathy, karpathy.ai, CodingScape.
