- 503 bài học, 20 phases, khoảng 320 giờ - curriculum AI hoàn toàn miễn phí do Rohit Ghumare xây dựng trong 18 tháng.
- Triết lý cốt lõi: tự viết thuật toán từ toán thô trước khi dùng PyTorch hay tiktoken.
- Mỗi bài kết thúc bằng một artifact dùng được ngay - repo ship 388 skills và 99 prompt templates.
- Phase 19 Capstone có 17 sản phẩm end-to-end từ coding agent đến multi-agent software engineering team.
TL;DR
AI Engineering from Scratch là curriculum AI engineering miễn phí, MIT-licensed do Rohit Ghumare xây dựng trong 18 tháng. 503 bài học chia làm 20 phases, ước tính 320 giờ học, sử dụng Python, TypeScript, Rust và Julia. Triết lý cốt lõi: bạn phải tự viết thuật toán từ toán học thô trước khi được phép dùng framework. Mỗi bài học kết thúc bằng một artifact triển khai được ngay vào workflow thực tế. Hoàn toàn miễn phí, không đăng ký, không paywall.
Khi 84% dùng AI nhưng chỉ 18% sẵn sàng ship
Rohit Ghumare bắt đầu dự án này từ một thống kê đáng lo ngại: 84% sinh viên khoa học máy tính dùng AI tools mỗi ngày, nhưng chỉ 18% cảm thấy sẵn sàng dùng chúng một cách chuyên nghiệp.
Vấn đề không phải là thiếu tài nguyên học. Vấn đề là hầu hết tài nguyên dạy theo kiểu rời rạc - một bài paper ở đây, một bài fine-tuning ở đó, một agent demo flashy ở chỗ khác. Bạn có thể pip install transformers, ship một demo, và không bao giờ tính được một gradient bằng tay. Framework chấp nhận thỏa hiệp đó. Nhưng thỏa hiệp đó vỡ ngay khi loss curve của bạn phân kỳ, hay tokenizer của bạn tốn gấp 10 lần token cho tiếng Nhật so với tiếng Anh, hay agent của bạn ship hallucination vì context window nửa đầy boilerplate trùng lặp.
Đó là lý do curriculum này ra đời - và cũng là lý do nó khác hoàn toàn với những gì đang có.
Triết lý "Build It / Use It" - xương sống của toàn bộ curriculum
Mỗi bài học tuân theo một quy tắc cố định: bạn phải tự xây dựng thuật toán bằng NumPy và stdlib trước, không framework. Sau đó, bạn chạy cùng input đó qua production library để thấy chúng cho ra cùng kết quả.

Cùng thuật toán, cùng output - nhưng sau khi tự xây, bạn hiểu tại sao tiktoken nhanh hơn 1000 lần
Ví dụ cụ thể: tokenizer tự viết bằng for-loop mất khoảng 40 giây để xử lý một corpus nhỏ. Chạy cùng input qua tiktoken: 40 milliseconds. Cùng thuật toán, cùng kết quả. Nhưng sau khi bạn tự viết phiên bản chậm, tiktoken không còn là hộp đen nữa. Nó là code của bạn, được viết lại bằng Rust với cache warm.
Tương tự: cơ chế attention transformer cốt lõi triển khai trong 30 dòng Python. Vòng lặp agent kiểu ReAct trong 120 dòng không có dependency nào. Mỗi bài học theo đúng 6 bước: MOTTO - PROBLEM - CONCEPT - BUILD IT - USE IT - SHIP IT.
20 phases từ đại số tuyến tính đến autonomous agent swarm
Curriculum trải dài từ Phase 0 (Setup & Tooling) đến Phase 19 (Capstone Projects), đi qua toàn bộ stack AI hiện đại:
Nền tảng (Phase 0-3): Môi trường, toán học, ML cổ điển, deep learning từ perceptron đến mini framework tự viết
Domain AI (Phase 4-9): Computer Vision (28 bài), NLP (29 bài), Speech & Audio, Transformers, Generative AI, Reinforcement Learning
LLM Engineering (Phase 10-12): Pre-train GPT 124M từ đầu, instruction tuning, RLHF, DPO, quantization, multimodal
Agents & Production (Phase 13-18): MCP, agent engineering, autonomous systems, multi-agent swarms, infrastructure, ethics & alignment
Capstone (Phase 19): 85 bài học, 17 sản phẩm end-to-end, 9 deep-build tracks, mỗi project ước tính 20-40 giờ
Phase 19 Capstone bao gồm những sản phẩm thực tế như Terminal-Native Coding Agent, RAG over Codebase, Real-Time Voice Assistant (ASR - LLM - TTS), Autonomous Research Agent (AI-Scientist class), DevOps Troubleshooting Agent cho Kubernetes, và Multi-Agent Software Engineering Team.
Mỗi bài học ship một công cụ thật
Điều phân biệt curriculum này với hầu hết các khóa học: mỗi bài học không kết thúc bằng "chúc mừng bạn đã học X". Nó kết thúc bằng một artifact bạn cài vào workflow ngay hôm đó.
Bốn loại artifact:
Prompt templates: Paste vào bất kỳ AI assistant nào cho task cụ thể
Skill specs: Drop vào Claude, Cursor, Codex, OpenClaw, Hermes - bất kỳ agent nào đọc
SKILL.mdAgent definitions: Deploy như autonomous worker - bạn đã viết cái loop đó ở Phase 14
MCP servers: Plug vào bất kỳ MCP-compatible client, xây end-to-end ở Phase 13
Kết thúc curriculum, bạn có 388 agent skills và 99 prompt templates - tất cả trong phases/**/outputs/. Cài tất cả bằng một lệnh: npx skills add . hoặc python3 scripts/install_skills.py. Curriculum cũng tích hợp hai built-in skills: /find-your-level (bài kiểm tra 10 câu, map kiến thức bạn vào phase bắt đầu phù hợp) và /check-understanding <phase> (quiz 8 câu sau mỗi phase kèm feedback và gợi ý bài cần ôn lại).
Bắt đầu từ đâu tùy background của bạn
Curriculum có routing rõ ràng tùy trình độ:
Background | Bắt đầu | Ước tính |
|---|---|---|
Mới học lập trình và AI | Phase 0 - Setup | ~306 giờ |
Biết Python, chưa biết ML | Phase 1 - Math | ~270 giờ |
Biết ML, chưa biết deep learning | Phase 3 - Deep Learning | ~200 giờ |
Biết deep learning, muốn LLM và agents | Phase 10 - LLMs | ~100 giờ |
Senior engineer, chỉ cần agent engineering | Phase 14 - Agents | ~60 giờ |
Ba cách bắt đầu: đọc trực tiếp trên aiengineeringfromscratch.com không cần setup; clone repo về chạy local; hoặc install skills vào agent rồi chạy /find-your-level bên trong Claude, Cursor hay Codex.
Trước khi bắt đầu - biết rõ điều này
Curriculum này không phải cho tất cả mọi người. Không có video lecture, không có copy-paste template, không có phím tắt. Nếu bạn chỉ muốn gọi API - "curriculum sẽ cảm giác chậm." Nếu bạn muốn hiểu tại sao API đó hoạt động - đây là con đường.
Yêu cầu thực sự: bạn phải biết lập trình (Python giúp ích nhiều). Bạn phải sẵn sàng với math dense và code hands-on không hand-holding. Curriculum được duy trì bởi sponsorship từ cộng đồng và doanh nghiệp, không có instructor feedback hay forum hỗ trợ chính thức. Mọi thứ trên GitHub, fork được, dạy được, không cần attribution.
"Một textbook lúc vào, một toolbox lúc ra"
Rohit Ghumare đã viết curriculum này vì "không có gì trên internet là thứ tôi ước đã tồn tại khi tôi bắt đầu". Và ông viết nó miễn phí vì "phiên bản open-source của chính tôi là người cần nó nhất".
Triết lý "Build It / Use It" là thứ đã giữ cho curriculum 503 bài học không mâu thuẫn với nhau trong suốt 18 tháng phát triển. Xây phiên bản nhỏ trước. Rồi chạy cùng thứ đó qua framework. Framework không còn là magic nữa.
