20 GitHub Accounts Mọi AI Builder Cần Follow - Phần 1: Nền Tảng và Training

TL;DR

@meta_alchemist vừa publish một bài viết trên X về 60 GitHub accounts mà mọi AI builder nên follow - không phải để cảm thấy smarter, mà để học cách build từ source. Phần 1 này giới thiệu 20 người đầu tiên: nhóm nền tảng (foundation) và nhóm training & efficiency. Mỗi người đều có repo bạn có thể clone và chạy ngay hôm nay.

Nhóm 1: Nền Tảng và Cổ Điển (#1-10)

Đây là những người xây dựng framework, kiến trúc và ngôn ngữ mà toàn bộ hệ sinh thái AI hiện đại đang chạy trên đó.

karpathy (Andrej Karpathy) - Người gần nhất với định nghĩa "giáo viên AI bạn có thể thực sự học được." nanoGPT, llm.c, micrograd - mỗi project đều giải thích transformer từng dòng code một, không cần PhD. Build gì từ đây: tự rebuild nanoGPT trong một weekend rồi viết tutorial theo góc nhìn của bạn.
ggerganov (Georgi Gerganov) - Một mình làm cho LLM chạy được trên laptop không cần cloud GPU. llama.cpp là nền tảng của Ollama, llamafile và hàng loạt tool local AI. Build gì từ đây: một sản phẩm vertical trên llama.cpp cho ngành cụ thể (luật, y tế, kế toán) - những người không thể gửi dữ liệu lên cloud.
geohot (George Hotz) - Jailbreak iPhone lúc 17 tuổi, giờ đang build tinygrad để cạnh tranh với PyTorch. Build in public, stream trực tiếp, không quan tâm ai phật ý. Build gì từ đây: viết tutorial sạch về tinygrad cho một use case cụ thể - educational layer của framework này còn rất mỏng.
soumith (Soumith Chintala) - Co-creator của PyTorch, framework mà gần như mọi AI lab nghiêm túc trên thế giới đang dùng. Ít ồn ào, rất technical, được kính trọng bởi tất cả người quan trọng trong ngành. Build gì từ đây: theo dõi những gì anh đang signal-boost - đó là nơi nên stack skill 6 tháng trước khi trend bùng nổ.
fchollet (François Chollet) - Tạo ra Keras, làm cho deep learning accessible với hàng triệu người. Hiện vận hành ARC Challenge - benchmark sạch nhất để đo xem model có thực sự reasoning hay chỉ đang memorize. Build gì từ đây: tooling xung quanh ARC - visualizer, dataset explorer, leaderboard. Benchmark đang là frontier mới và toolchain xung quanh nó gần như chưa được build.
ylecun (Yann LeCun) - Turing Award, Chief AI Scientist của Meta, người to tiếng nhất phản biện "LLMs là tất cả." Convolutional networks tồn tại nhờ anh. Build gì từ đây: đọc những gì anh đang skeptical về - đó thường là nơi opportunity lớn nhất đang ẩn.
lucidrains (Phil Wang) - Reimplements gần như mọi AI paper quan trọng bằng PyTorch sạch, thường trong vài ngày sau khi paper ra. Một người, hàng trăm repos, chất lượng nhất quán. Build gì từ đây: biến những implementation của anh thành productized notebooks, khóa học, hoặc developer kit - anh ship science, bạn ship educational layer.
rwightman (Ross Wightman) - Xây dựng timm, library mà mọi computer vision team đang dựa vào. Build gì từ đây: sản phẩm computer vision vertical (đếm hàng tồn kho, parse document, phát hiện lỗi sản xuất) dùng timm làm backbone.
srush (Sasha Rush) - Giáo sư Cornell biến các chủ đề ML khó thành thứ builder bình thường có thể dùng. The Annotated Transformer và MiniTorch đều là của anh. Build gì từ đây: áp dụng pattern của anh - chọn một chủ đề ML, build phiên bản "annotated" sạch nhất, bạn có ngay portfolio piece mở ra nhiều cơ hội.
rasbt (Sebastian Raschka) - Tác giả "Build a Large Language Model from Scratch," một trong những learning path sạch nhất trong ngành. Hands-on, rõ ràng, zero fluff. Build gì từ đây: mỗi chương sách của anh là một video YouTube, một thread, hoặc một workshop đang chờ ai đó làm.

Nhóm 2: Training và Hiệu Quả (#11-18)

Nhóm này đã làm cho việc train và fine-tune model trở nên accessible với hardware thông thường - không cần data center, không cần ngân sách của big tech.

tridao (Tri Dao) - Co-author của FlashAttention và Mamba, hai paper quan trọng nhất vài năm gần đây. Mọi inference setup nhanh đang dùng đều có code của anh ở đâu đó. Build gì từ đây: sản phẩm nào có unit economics phụ thuộc vào chi phí inference thấp hơn - voice agent, video pipeline, real-time personalization.
albertfgu (Albert Gu) - Co-author Mamba, researcher hàng đầu về state space models - kiến trúc đang thực sự thách thức transformers. Build gì từ đây: Mamba-native vertical apps. Hệ sinh thái đang ở thời điểm tương đương transformers năm 2018.
TimDettmers (Tim Dettmers) - Xây dựng bitsandbytes và QLoRA - lý do bạn có thể fine-tune model lớn trên consumer GPU. Anh trao cho cộng đồng open source khả năng fine-tune giá rẻ. Build gì từ đây: wrapper "fine-tune model trên data của bạn, trên hardware của bạn, một click" - infra đã có, consumer UX chưa ai làm tốt.
danielhanchen (Daniel Han) - Co-founder Unsloth, làm fine-tuning LLM nhanh gấp 2x trên consumer hardware. Anh còn tìm ra bugs tinh vi trong các major open model mà chính lab đó bỏ sót. Build gì từ đây: fine-tuning-as-a-service cho một vertical (legal AI, medical AI, sales AI) ngồi trên Unsloth.
winglian (Wing Lian) - Maintainer của Axolotl, framework mặc định cho fine-tuning LLMs trong open source. Build gì từ đây: Axolotl recipes cho các use case cụ thể (function-calling, structured output, domain assistants).
teknium1 (Teknium) - Core researcher tại Nous Research, crew open weights được kính trọng nhất. Hermes, OpenHermes, và nhiều fine-tune punch way above their weight. Build gì từ đây: sản phẩm phụ thuộc open weights vì lý do chi phí hoặc chủ quyền dữ liệu.
mlabonne (Maxime Labonne) - Xây dựng một trong những LLM course miễn phí tốt nhất online và là người tiên phong model merging như một kỹ thuật nghiêm túc. Build gì từ đây: merge model cho các domain niche và ship chúng dưới dạng paid download hoặc API endpoint.
ehartford (Eric Hartford) - Người đứng sau Dolphin series, Cognitive Computations, và loạt uncensored fine-tune. Cũng viết những bài essay rõ nhất về alignment và openness. Build gì từ đây: sản phẩm phục vụ user có use case hợp lệ nhưng bị closed model từ chối - creative writing, research tool, công cụ chuyên nghiệp niche.

Điểm Dừng: Hai Người Khai Phá Kỷ Nguyên Agents (#19-20)

yoheinakajima (Yohei Nakajima) - Xây dựng BabyAGI, agent tự động viral đầu tiên khiến mọi người nhận ra agents là một category thực sự. Prototype anh làm hôm nay thường trở thành standard pattern một tháng sau. Build gì từ đây: productize prototype của anh - anh ship cái loop, bạn wrap nó trong UI sạch cho người dùng thực tế và tính phí cho kết quả.
Torantulino (Toran Bruce Richards) - Tạo ra AutoGPT, đạt 150k stars trong vài tuần - loại timing mà hầu hết builder chỉ mơ. Build gì từ đây: AutoGPT-style agents thu hẹp cho một kết quả cụ thể (qualify lead, monitor competitor, tóm tắt inbox). Agent tổng quát thì viral, agent chuyên biệt thì có revenue.

Kết

20 người này không xuất hiện trên những list "AI influencer cần follow" thông thường - vì họ đang build thay vì tweet về người khác build. Đây là điểm khác biệt quan trọng nhất.

Cách dùng list này có hiệu quả: không chỉ star repo, hãy đọc design choices trong README. Tìm "unfair advantage" của từng người - deep domain knowledge, timing, execution. Clone một repo, break nó, ship thứ gì đó nhỏ trên nền đó trong tuần này.

Phần 2 sẽ tiếp tục với 20 người còn lại: coding agents, inference runtimes, infra builders và practitioners.

via @meta_alchemist trên X

20 GitHub Accounts Mọi AI Builder Cần Follow - Phần 1: Nền Tảng và Training

TL;DR

Nhóm 1: Nền Tảng và Cổ Điển (#1-10)

Nhóm 2: Training và Hiệu Quả (#11-18)

Điểm Dừng: Hai Người Khai Phá Kỷ Nguyên Agents (#19-20)

Kết

Đạo hữu là phàm nhân, tu tiên giả... hay AI cào nội dung?

Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?