TL;DR

AI Engineering from Scratch là curriculum AI engineering miễn phí, MIT-licensed do Rohit Ghumare xây dựng trong 18 tháng. 503 bài học chia làm 20 phases, ước tính 320 giờ học, sử dụng Python, TypeScript, Rust và Julia. Triết lý cốt lõi: bạn phải tự viết thuật toán từ toán học thô trước khi được phép dùng framework. Mỗi bài học kết thúc bằng một artifact triển khai được ngay vào workflow thực tế. Hoàn toàn miễn phí, không đăng ký, không paywall.

Khi 84% dùng AI nhưng chỉ 18% sẵn sàng ship

Rohit Ghumare bắt đầu dự án này từ một thống kê đáng lo ngại: 84% sinh viên khoa học máy tính dùng AI tools mỗi ngày, nhưng chỉ 18% cảm thấy sẵn sàng dùng chúng một cách chuyên nghiệp.

Vấn đề không phải là thiếu tài nguyên học. Vấn đề là hầu hết tài nguyên dạy theo kiểu rời rạc - một bài paper ở đây, một bài fine-tuning ở đó, một agent demo flashy ở chỗ khác. Bạn có thể pip install transformers, ship một demo, và không bao giờ tính được một gradient bằng tay. Framework chấp nhận thỏa hiệp đó. Nhưng thỏa hiệp đó vỡ ngay khi loss curve của bạn phân kỳ, hay tokenizer của bạn tốn gấp 10 lần token cho tiếng Nhật so với tiếng Anh, hay agent của bạn ship hallucination vì context window nửa đầy boilerplate trùng lặp.

Đó là lý do curriculum này ra đời - và cũng là lý do nó khác hoàn toàn với những gì đang có.

Triết lý "Build It / Use It" - xương sống của toàn bộ curriculum

Mỗi bài học tuân theo một quy tắc cố định: bạn phải tự xây dựng thuật toán bằng NumPy và stdlib trước, không framework. Sau đó, bạn chạy cùng input đó qua production library để thấy chúng cho ra cùng kết quả.

Build It / Use It: tokenizer tự viết mất 40 giây, tiktoken hoàn thành cùng input trong 40ms

Cùng thuật toán, cùng output - nhưng sau khi tự xây, bạn hiểu tại sao tiktoken nhanh hơn 1000 lần

Ví dụ cụ thể: tokenizer tự viết bằng for-loop mất khoảng 40 giây để xử lý một corpus nhỏ. Chạy cùng input qua tiktoken: 40 milliseconds. Cùng thuật toán, cùng kết quả. Nhưng sau khi bạn tự viết phiên bản chậm, tiktoken không còn là hộp đen nữa. Nó là code của bạn, được viết lại bằng Rust với cache warm.

Tương tự: cơ chế attention transformer cốt lõi triển khai trong 30 dòng Python. Vòng lặp agent kiểu ReAct trong 120 dòng không có dependency nào. Mỗi bài học theo đúng 6 bước: MOTTO - PROBLEM - CONCEPT - BUILD IT - USE IT - SHIP IT.

20 phases từ đại số tuyến tính đến autonomous agent swarm

Curriculum trải dài từ Phase 0 (Setup & Tooling) đến Phase 19 (Capstone Projects), đi qua toàn bộ stack AI hiện đại:

  • Nền tảng (Phase 0-3): Môi trường, toán học, ML cổ điển, deep learning từ perceptron đến mini framework tự viết

  • Domain AI (Phase 4-9): Computer Vision (28 bài), NLP (29 bài), Speech & Audio, Transformers, Generative AI, Reinforcement Learning

  • LLM Engineering (Phase 10-12): Pre-train GPT 124M từ đầu, instruction tuning, RLHF, DPO, quantization, multimodal

  • Agents & Production (Phase 13-18): MCP, agent engineering, autonomous systems, multi-agent swarms, infrastructure, ethics & alignment

  • Capstone (Phase 19): 85 bài học, 17 sản phẩm end-to-end, 9 deep-build tracks, mỗi project ước tính 20-40 giờ

Phase 19 Capstone bao gồm những sản phẩm thực tế như Terminal-Native Coding Agent, RAG over Codebase, Real-Time Voice Assistant (ASR - LLM - TTS), Autonomous Research Agent (AI-Scientist class), DevOps Troubleshooting Agent cho Kubernetes, và Multi-Agent Software Engineering Team.

Mỗi bài học ship một công cụ thật

Điều phân biệt curriculum này với hầu hết các khóa học: mỗi bài học không kết thúc bằng "chúc mừng bạn đã học X". Nó kết thúc bằng một artifact bạn cài vào workflow ngay hôm đó.

Bốn loại artifact:

  • Prompt templates: Paste vào bất kỳ AI assistant nào cho task cụ thể

  • Skill specs: Drop vào Claude, Cursor, Codex, OpenClaw, Hermes - bất kỳ agent nào đọc SKILL.md

  • Agent definitions: Deploy như autonomous worker - bạn đã viết cái loop đó ở Phase 14

  • MCP servers: Plug vào bất kỳ MCP-compatible client, xây end-to-end ở Phase 13

Kết thúc curriculum, bạn có 388 agent skills và 99 prompt templates - tất cả trong phases/**/outputs/. Cài tất cả bằng một lệnh: npx skills add . hoặc python3 scripts/install_skills.py. Curriculum cũng tích hợp hai built-in skills: /find-your-level (bài kiểm tra 10 câu, map kiến thức bạn vào phase bắt đầu phù hợp) và /check-understanding <phase> (quiz 8 câu sau mỗi phase kèm feedback và gợi ý bài cần ôn lại).

Bắt đầu từ đâu tùy background của bạn

Curriculum có routing rõ ràng tùy trình độ:

Background

Bắt đầu

Ước tính

Mới học lập trình và AI

Phase 0 - Setup

~306 giờ

Biết Python, chưa biết ML

Phase 1 - Math

~270 giờ

Biết ML, chưa biết deep learning

Phase 3 - Deep Learning

~200 giờ

Biết deep learning, muốn LLM và agents

Phase 10 - LLMs

~100 giờ

Senior engineer, chỉ cần agent engineering

Phase 14 - Agents

~60 giờ

Ba cách bắt đầu: đọc trực tiếp trên aiengineeringfromscratch.com không cần setup; clone repo về chạy local; hoặc install skills vào agent rồi chạy /find-your-level bên trong Claude, Cursor hay Codex.

Trước khi bắt đầu - biết rõ điều này

Curriculum này không phải cho tất cả mọi người. Không có video lecture, không có copy-paste template, không có phím tắt. Nếu bạn chỉ muốn gọi API - "curriculum sẽ cảm giác chậm." Nếu bạn muốn hiểu tại sao API đó hoạt động - đây là con đường.

Yêu cầu thực sự: bạn phải biết lập trình (Python giúp ích nhiều). Bạn phải sẵn sàng với math dense và code hands-on không hand-holding. Curriculum được duy trì bởi sponsorship từ cộng đồng và doanh nghiệp, không có instructor feedback hay forum hỗ trợ chính thức. Mọi thứ trên GitHub, fork được, dạy được, không cần attribution.

"Một textbook lúc vào, một toolbox lúc ra"

Rohit Ghumare đã viết curriculum này vì "không có gì trên internet là thứ tôi ước đã tồn tại khi tôi bắt đầu". Và ông viết nó miễn phí vì "phiên bản open-source của chính tôi là người cần nó nhất".

Triết lý "Build It / Use It" là thứ đã giữ cho curriculum 503 bài học không mâu thuẫn với nhau trong suốt 18 tháng phát triển. Xây phiên bản nhỏ trước. Rồi chạy cùng thứ đó qua framework. Framework không còn là magic nữa.

via rohitg00/ai-engineering-from-scratch