AI Agents: The Complete Course - P1: Nền tảng và cách hoạt động

TL;DR

AI agent không phải là chatbot thông minh hơn - đó là hệ thống hoạt động theo vòng lặp ReAct (Reason - Act - Observe - Repeat), tự lên kế hoạch, gọi công cụ, và tự sửa lỗi. Sự khác biệt cốt lõi: LLM thông thường trả lời một lần rồi xong, còn agent làm việc theo cách con người thực sự giải quyết bài toán khó. Đây là phần 1 trong series 3 bài về AI agents - từ nền tảng đến production.

AI Agent là gì - và khác LLM thông thường ở chỗ nào

Một LLM thông thường làm một việc: bạn hỏi, nó trả lời, xong. Một lần. Tuyến tính. Không lặp lại.

AI agent hoạt động khác hẳn. Nó làm việc theo cách bạn thực sự xử lý bài toán khó:

Lên kế hoạch trước
Research
Viết bản nháp
Tự review công việc
Sửa lại
Lặp lại

Đây là vòng lặp ReAct - được Google Research giới thiệu năm 2022 và hiện là kiến trúc nền tảng của mọi agent framework lớn (AutoGen, CrewAI, LangGraph, OpenAI Agents SDK):

Reason: agent suy nghĩ về bước tiếp theo cần làm
Act: gọi tool (web search, database, code execution, API)
Observe: xem kết quả trả về
Repeat: tính toán lại và tiếp tục cho đến khi hoàn thành

Mỗi vòng lặp thêm depth. Reasoning mạnh hơn. Ít hallucination hơn. Tổ chức tốt hơn. Tất cả những gì bạn đánh mất khi cố gắng làm trong một lần - agent lấy lại được.

Định nghĩa chính xác: AI agent là hệ thống phần mềm tự trị dùng LLM làm reasoning core, có khả năng perceive inputs, reason về quyết định, act thông qua tools và API, và maintain memory để pursue mục tiêu mà không cần hướng dẫn từng bước của con người.

Sự khác biệt với chatbot và copilot:

Chatbot: Reactive - chỉ trả lời, cần human ở mỗi bước
Copilot: Assistive - gợi ý, human ra quyết định cuối cùng
Agent: Autonomous - tự lên kế hoạch và hành động, human in the loop có thể cấu hình linh hoạt

LLM trả lời một lần - AI Agent lặp lại nhiều lần cho đến khi đạt kết quả tốt nhất

Agent phù hợp cho task nào

Không phải task nào cũng cần agent. Mental model đúng là ma trận 2x2 với hai trục Complexity và Precision:

Low complexity + high precision - dùng code thông thường
Low complexity + low precision - một LLM prompt là đủ
High complexity + high precision - agents với heavy guardrails (biểu mẫu thuế, hợp đồng pháp lý)
High complexity + low precision - điểm xuất phát tốt nhất khi mới bắt đầu

Góc phần tư cuối cùng là nơi bạn thắng nhanh nhất.

Ví dụ task lý tưởng cho agent:

Research và viết báo cáo tổng hợp
Trả lời email khách hàng (tra đơn hàng rồi soạn phản hồi)
Xử lý hóa đơn và lưu database
Trả lời "Có quần jeans xanh dưới 2 triệu không?" bằng cách thực sự kiểm tra kho

Agent phát huy tối đa khi task cần: nhiều bước, thông tin bên ngoài, và khả năng tự sửa lỗi. Nếu giải được bằng một prompt duy nhất - đừng build agent.

Autonomy Spectrum - Bạn trao quyền bao nhiêu cho agent

Quyết định đầu tiên khi build agent: trao bao nhiêu quyền tự chủ cho nó?

Scripted (đầu trái): Bạn hard-code từng bước. Model chỉ làm text generation. Bạn quyết định mọi thứ. Predictable, dễ debug, nhưng bị giới hạn.
Semi-Autonomous (giữa): Agent chọn từ bộ tools bạn định nghĩa. Ra quyết định trong guardrails bạn đặt. Đây là nơi phần lớn production systems thực tế hoạt động.
Fully Autonomous (đầu phải): LLM tự quyết định mọi thứ - tìm kiếm gì, lấy bao nhiêu trang, có reflect không, có tự viết code và chạy không. Mạnh hơn nhưng khó kiểm soát hơn nhiều.

Bắt đầu ở đâu? Giữa spectrum. Cho nó tools, đặt guardrails, tăng autonomy dần dần khi bạn có đủ confidence.

Context Engineering - Thứ tạo ra sự thông minh thực sự

Đây là thứ thực sự tạo ra một agent "thông minh". Không phải model - mà là context bạn xây dựng xung quanh nó.

Context engineering = quyết định thông tin gì agent có ở mỗi thời điểm. Bao gồm:

Background: task là gì, user là ai
Role: "bạn là research agent chuyên về market analysis"
Memory: những gì đã xảy ra ở các bước trước
Available tools: functions nào nó có thể gọi
Knowledge: documents, databases, PDFs nó có thể reference

Engineer tốt thì model hành xử nhất quán. Engineer kém thì kết quả không thể đoán được. Model là như nhau ở cả hai trường hợp. Context mới là thứ tách biệt agent tốt và agent hỏng.

Con số từ thực tế: một system prompt được viết tốt có thể giảm 60-80% lỗi và unsafe behaviors trong production deployments.

Task Decomposition - Kỹ năng quan trọng nhất khi build agent

Bắt đầu bằng câu hỏi đơn giản: con người sẽ làm task này như thế nào? Rồi với mỗi bước, hỏi: LLM có làm được không? Code? API call? Nếu câu trả lời là không - chia nhỏ hơn cho đến khi có thể.

Ví dụ thực tế với essay-writing agent:

Outline - LLM tạo cấu trúc bài
Search terms - LLM tạo từ khóa, gọi search API
Fetch pages - Tool call lấy nội dung
Write draft - LLM viết dựa trên sources đã tìm
Self-critique - LLM tự liệt kê gaps và điểm yếu
Revise - LLM viết lại dựa trên critique

Mỗi bước đều: nhỏ, có thể kiểm tra, có input và output rõ ràng. Khi output cuối cùng tệ, bạn biết chính xác bước nào cần sửa. Đây là superpower của decomposition - và cũng là lý do 2/3 agentic AI market năm 2026 chạy trên coordinated multi-agent systems, đều được build từ task decomposition tốt.

Kết

5 khái niệm nền tảng bạn cần nắm trước khi bắt tay build agent:

Agent hoạt động theo vòng lặp ReAct - không phải one-shot
Chỉ dùng agent cho task có complexity cao và cần nhiều bước
Bắt đầu semi-autonomous, không fully autonomous ngay
Context engineering mới là thứ tạo ra sự thông minh thực sự
Task decomposition là kỹ năng quan trọng nhất

Phần 2 của series đi vào phần thực chiến hơn: evaluation, memory, guardrails, và 4 design patterns giúp agent hoạt động đáng tin cậy trong hệ thống multi-agent. Đọc tiếp Phần 2