AI Agent Tech Stack 2025: 9 lớp kiến trúc mọi developer cần biết
9 lớp kiến trúc từ frontend đến GPU quyết định liệu agent của bạn có chạy ổn định ở production hay mãi stuck trong vòng lặp. LangChain đạt 5/10 DX trong benchmark 90 ngày của Nextbuild, PydanticAI dẫn đầu 8/10 và bắt được 23 production bugs LangChain bỏ sót. CrewAI không có token budget cap mặc định - một run uncapped trên Gemini đã tốn $414. McKinsey 2025: 62% doanh nghiệp đang thử nghiệm AI agents, 23% đã scale ở ít nhất một chức năng.
GhostTrack: Bộ công cụ OSINT 3-trong-1 chạy được trên cả Termux Android
GhostTrack là OSINT toolkit Python open-source gộp IP tracker, phone tracker và username tracker vào một CLI duy nhất. 8.8k sao GitHub, chạy được cả Linux lẫn Termux trên điện thoại — nhưng dùng cho mục đích gì mới là chuyện đáng nói.
Awesome NotebookLM Prompts: Bộ sưu tập prompt slide đỉnh nhất từ creative underground
Repo GitHub 3.5k stars tổng hợp 15+ prompt NotebookLM giúp biến papers và notes thành presentation-ready slide decks. 6 nhóm phong cách từ Modern Newspaper đến Manga Style, Watercolor, Neon Tech. Tác giả còn bake sẵn citation checker skill để detect hallucinated citations.
Claude Code có hai điểm mù lớn. Đây là cách fix cả hai
web_fetch của Claude Code không trả raw content - nó chạy qua Haiku và chỉ trả về summary với giới hạn 125 ký tự. Bright Data fix vấn đề web scraping. InsForge fix vấn đề backend integration. Cả hai tool đều open-source và có thể cài trong 1 lệnh.
Agentic Design Patterns: 21 Pattern để Xây AI Agent Thực Sự - P3: Multi-Agent, Memory và 3 Bước Làm Ngay
Multi-Agent không phải càng phức tạp càng tốt: 3 trong 6 topology là đủ cho hầu hết use case (Single Agent, Peer-to-Peer, Supervisor). Memory có 3 tầng: Session (hết conversation là mất), State (hết task là xóa), Memory (persistent cross-session dùng vector DB). Level 2 single Agent với Reflection và Context Engineering đã đủ cho 80% bài toán thực tế - đừng vội lên Level 3.
Agentic Design Patterns: 21 Pattern để Xây AI Agent Thực Sự - P2: Context Engineering và Reflection Pattern
Context Engineering không phải Prompt Engineering: thay vì nghĩ "hỏi như thế nào", bạn phải nghĩ "Agent thấy gì trước khi hỏi" - gồm 4 lớp: system prompt, external data, implicit data và feedback loop. Reflection Pattern dùng 2 Agent riêng biệt (Producer + Critic) với system prompt khác nhau - cùng một LLM tự review bản thân sẽ luôn nói "ổn rồi".
Agentic Design Patterns: 21 Pattern để Xây AI Agent Thực Sự - P1: Bạn Đang Xây Agent hay Chatbot?
Antonio Gullí (Engineering Director, Google) hệ thống hóa 21 design patterns để xây AI Agent trong quyển sách 472 trang. Điểm đau nhất trong sách: hầu hết thứ mọi người gọi là "AI Agent" thực ra là Level 0 - LLM trần, không tool, không memory. Sách cover code examples trên 3 framework: LangChain/LangGraph, Crew AI, Google ADK.
10 Công Cụ AI Open-Source Miễn Phí Thay Thế Hoàn Toàn Các Tool Trả Phí
10 công cụ open-source miễn phí thay thế Midjourney, ChatGPT, Figma, Notion, Zapier, Calendly, Firebase và Cursor - tổng chi phí SaaS tương đương: $300-500/tháng. Fooocus chạy trên laptop cá nhân, chỉ 3 bước từ download đến tạo ảnh. OpenVoice của MIT clone giọng nói từ 10 giây audio, MIT license dùng thương mại miễn phí. n8n đạt định giá $2.3 tỷ USD tháng 8/2025, hơn 400 tích hợp, tự host = workflows không giới hạn.
SLA vs SLO vs SLI: ba khái niệm dễ nhầm, và vì sao đặt bằng nhau là tự sát
SLI đo, SLO nhắm, SLA hứa. Đặt SLO = SLA nghĩa là giây phút bạn miss mục tiêu nội bộ cũng là giây phút hợp đồng khách hàng bị vi phạm. Đây là cách ba con số này khác nhau, cách tính error budget, và những cạm bẫy thường gặp.
"Constant GPU memory" trong LLM inference: bạn không làm bài toán biến mất, chỉ dời nó sang CPU
Các paper như RetroInfer và ScoutAttention quảng cáo inference long-context với "constant GPU memory" nhờ offload KV cache sang CPU DRAM và kéo lại qua PCIe mỗi decode step. Đẹp trên slide — nhưng có điều kiện nhỏ: bạn cần 36+ CPU cores chạy ANN search liên tục. Apple Silicon và RTX 4090 không có cửa.