10 Repos Giảm Token Bill AI Agent Tới 80% - Không Ai Kiểm Tra Cái Đang Gửi Đi
Hầu hết AI agent tốn kém không phải vì model đắt, mà vì không ai kiểm soát lượng token gửi đi. 10 open-source repos này giải quyết vấn đề đó ở 7 layer khác nhau. LLMLingua nén prompt tới 20x trước khi gọi API với gần như không mất chất lượng. mem0 cô đọng 10,000 token conversation history xuống còn 200 token per agent. LiteLLM route tác vụ đơn giản sang Haiku thay vì Sonnet - tiết kiệm 20x chi phí trên cùng một output.
RAG tiến hóa như thế nào: Từ Retrieval đơn giản đến Agentic AI
RAG đã trải qua 6 giai đoạn tiến hóa - từ keyword search thủ công đến Agentic AI tự lên kế hoạch và tự sửa lỗi. Agentic RAG tốn 3-10x token và thêm 2-5x latency, nhưng đáng giá với các tác vụ multi-hop phức tạp, y tế, pháp lý. MCP trở thành chuẩn Linux Foundation tháng 12/2025 - báo hiệu RAG sắp biến thành tầng hạ tầng cốt lõi của mọi ứng dụng AI.
Foundations of Large Language Models - Cuốn sách 247 trang miễn phí bạn nên đọc ngay
Foundations of Large Language Models là sách học thuật 247 trang, miễn phí trên arXiv, bao phủ 5 trụ cột kỹ thuật từ pre-training đến inference. Tác giả Tong Xiao và Jingbo Zhu dùng ký hiệu toán học chuẩn với Q/K/V matrices, KL divergence, RLHF formal derivations. Chương 5 gồm inference-time scaling kiểu o1 - rare trong sách giáo khoa foundational. License CC BY-NC 4.0, tải PDF miễn phí tại arxiv.org/abs/2501.09223.
Andrej Karpathy vừa cho bạn khoá học LLM tốt nhất thế giới - miễn phí trên YouTube
Karpathy phát hành video 3h31m "Deep Dive into LLMs like ChatGPT" - bao trọn pipeline từ tokenization, transformer đến RLHF và DeepSeek-R1, hoàn toàn miễn phí. GPT-2 từng tốn $40,000 để train năm 2019, Karpathy tái tạo lại với $672 và chứng minh con số đó có thể xuống $100 hôm nay. Không cần background lập trình, không cần toán - chỉ cần 3 tiếng rưỡi đầu tư một lần.
7 GitHub repos để học AI thật sự trong 2026 (tất cả miễn phí)
7 repos tổng cộng hơn 490k stars trên GitHub, cover từ zero đến production-ready AI. microsoft/generative-ai-for-beginners đạt 98.1k stars với 21 bài học có cấu trúc. rasbt/LLMs-from-scratch lên 92k stars - build ChatGPT bằng PyTorch từ tokenization đến fine-tuning. Tất cả free, không cần đăng ký hay trả phí.
PageIndex: Xuất sắc trong niche của nó - nhưng Twitter đang hype quá mức
PageIndex đạt 98.7% accuracy trên FinanceBench - một benchmark tài chính cực khó - nhờ cách tiếp cận vectorless hoàn toàn mới. Tuy nhiên, bản OSS chỉ thực sự mạnh với 1 tài liệu dài; multi-document cross-folder search đòi hỏi tier Enterprise mới ra mắt. Hype trên Twitter không sai, chỉ thiếu context quan trọng.
Multi-Agent Orchestration: Khi AI biết phân công lao động
Multi-agent vượt single-agent Claude Opus 4 tới 90.2% trong benchmark nghiên cứu. Mỗi sub-agent có context window riêng, cùng chia sẻ filesystem để phối hợp - đây là kiến trúc đang reshape cách AI xử lý bài toán phức tạp. Token tiêu tốn gấp 15 lần chat thường, nhưng tốc độ xử lý tăng tới 90% nhờ song song hóa.
2 Kiểu Kỹ Sư Tạo Ra AI Agent Thực Sự Hoạt Động
CTO của Listen Labs - startup AI vừa vào Forbes AI 50 với $100M funding - chỉ ra 2 profile kỹ sư tạo nên agent tốt: người "cảm" được LLM và người product engineer iterate nhanh từ thực tế. 57.3% tổ chức đã có agent trên production năm 2026. Vấn đề không còn là xây hay không, mà là xây nhanh thế nào.
10 Khái Niệm Cơ Bản Trước Khi Làm AI Agent - P2: ReAct, Multi-Agent và An Toàn
5 khái niệm nâng cao quyết định Agent của bạn có đáng tin cậy hay không: ReAct pattern, Multi-Agent collaboration, Error handling, Safety control và cách chọn framework đúng. Nhóm Multi-Agent thực tế chỉ 3-4 agent do coordination overhead tăng nhanh.
10 Khái Niệm Cơ Bản Trước Khi Làm AI Agent - P1: Nền Tảng Kiến Trúc
AI Agent không phải chatbot thông minh hơn - đó là một hệ thống thực thi hoàn chỉnh gồm LLM, tool calling, task planning, memory và context management. Bài này giải thích 5 khái niệm nền tảng bạn phải nắm trước khi bắt tay code Agent. MCP tháng 3/2026 đã vượt 97 triệu monthly SDK downloads.