TL;DR

Nhiều người lần đầu học AI Agent hay hỏi: tại sao nó biết bước tiếp theo cần làm gì? Nó quyết định gọi tool như thế nào? Nó nhớ chuyện xảy ra trước đó ra sao?

Câu trả lời ngắn: Agent không phải chatbot thông minh hơn. Đó là một hệ thống thực thi hoàn chỉnh gồm nhiều tầng phối hợp với nhau. Bài này phân tích 5 khái niệm đầu tiên - phần nền tảng kiến trúc - mà bạn phải nắm trước khi code bất kỳ Agent nào.

1. Vòng Lặp Cốt Lõi: Perceive - Think - Act - Observe

Agent hoạt động theo một vòng lặp cơ bản:

  • Perceive (Cảm nhận) - nhận đầu vào: câu hỏi, trạng thái môi trường, kết quả tool từ lần trước

  • Think (Suy nghĩ) - phân tích tình huống, lập kế hoạch bước tiếp theo

  • Act (Hành động) - thực thi: tìm kiếm, đọc file, gọi API

  • Observe (Quan sát) - nhìn kết quả, quay lại Think để quyết định tiếp

Đây là điểm khác biệt lớn nhất với ChatBot thông thường: ChatBot chỉ trả lời, còn Agent làm - xem kết quả - điều chỉnh - làm tiếp.

Lỗi phổ biến nhất khi build Agent: bỏ qua bước Think. Nếu model nhảy thẳng sang Act mà không đánh giá trạng thái task trước, rất dễ rơi vào vòng lặp gọi tool vô tận - tìm kiếm cùng một thứ, retry mãi không thoát.

2. Cơ Chế Gọi Tool: Function Calling và MCP

LLM bản thân không thể mở trình duyệt, đọc database, hay gửi email. Thứ nó thực sự làm là: quyết định cần gọi tool nào, rồi sinh ra một đoạn tham số có cấu trúc để hệ thống ngoài thực thi.

Hai khái niệm quan trọng:

  • Function Calling - cách model diễn đạt "tôi muốn gọi hàm này với tham số này" dưới dạng structured output. Ví dụ: {"tool": "get_weather", "arguments": {"city": "Ha Noi"}}

  • MCP (Model Context Protocol) - chuẩn mở cho phép model kết nối với tool và data source từ bất kỳ provider nào. Tháng 3/2026, MCP đã vượt 97 triệu monthly SDK downloads (từ khoảng 2 triệu lúc launch tháng 11/2024), được OpenAI, Google DeepMind, Microsoft và AWS đều adopt. via MCP Playground

Điểm khác biệt thực tiễn: Function Calling của OpenAI là proprietary - đổi model là phải rewrite tool definitions. MCP là open standard, tool define một lần, chạy được với Claude, GPT, Gemini, Llama.

Điều thực sự quan trọng không phải có tool hay không, mà là mô tả tool có rõ không. Tool description mơ hồ - model chọn nhầm tool, truyền sai params, hoặc gọi tool khi không cần thiết.

3. Lập Kế Hoạch và Phân Rã Task

Khi user đưa một task lớn - "điều tra 3 đối thủ và viết báo cáo so sánh" - Agent không thể hoàn thành trong một bước. Nó phải làm Task Decomposition: chia nhỏ thành subTask có quan hệ phụ thuộc.

Ví dụ task trên được chia:

  1. Xác định 3 đối thủ cần điều tra

  2. Thu thập thông tin từng công ty (có thể chạy song song)

  3. So sánh tính năng, giá, tệp người dùng

  4. Tổng hợp thành bảng

  5. Viết báo cáo cuối

Đây là task graph có dependency: "viết báo cáo" phụ thuộc "thu thập xong dữ liệu". Agent giỏi không chạy mù - nó đánh giá cấu trúc dependency trước, rồi mới chọn chiến lược thực thi:

  • Sequential - tuần tự, cho task có dependency chặt

  • Parallel - song song, cho subTask độc lập với nhau

4. Hệ Thống Bộ Nhớ

Để hoạt động như một "trợ lý làm việc liên tục", Agent cần bộ nhớ. Có 3 loại:

Ba loại bộ nhớ của AI Agent: Short-term, Long-term, và Working Memory

Ba loại bộ nhớ trong hệ thống Agent

  • Short-term Memory - những gì vừa xảy ra trong session hiện tại. Tương tự "câu vừa nói chuyện".

  • Long-term Memory - thông tin lưu cross-session: user preferences, lịch sử task, project context. Tương tự "danh bạ và hồ sơ cá nhân".

  • Working Memory - trạng thái trung gian trong lúc thực hiện task hiện tại. Tương tự "giấy nháp làm bài".

Ví dụ thực tế: Agent viết code cần nhớ đồng thời - project structure hiện tại là gì, file nào vừa sửa, test thất bại ở đâu, bước tiếp theo cần fix gì. Không có memory system đúng, Agent xử lý từng câu hỏi như lần đầu gặp.

Năm 2026, memory đã trở thành thành phần first-class trong kiến trúc Agent với ecosystem bao gồm 21 framework, 20 vector store và 3 hosting model khác nhau.

5. Quản Lý Context Window

LLM có một giới hạn cứng gọi là Context Window - số token tối đa model có thể nhìn thấy trong một lần xử lý. Khi task phức tạp, không thể nhét toàn bộ file, lịch sử chat, và kết quả tool vào một lần.

Vì vậy Agent phải làm Context Management chủ động. Bốn chiến lược phổ biến:

  • Load theo nhu cầu - chỉ đưa thông tin liên quan đến task hiện tại vào context

  • Tóm tắt nén - chuyển nội dung dài thành bản tóm tắt ngắn để tiết kiệm token

  • Sub-Agent phân tán - chia nhỏ, mỗi Agent xử lý một phần thông tin riêng

  • Loại bỏ thừa - nội dung lặp, log không liên quan, thông tin hết hạn không cần đưa vào

Nhiều Agent thất bại không phải vì model không đủ giỏi - mà vì context bị quản lý kém: thứ cần nhìn thì không có, thứ thừa thì lại chiếm hết slot.

Tóm Lại - 5 Khái Niệm Đầu Tiên

Năm khái niệm nền tảng này là backbone của mọi Agent system:

  1. Core Loop - Perceive → Think → Act → Observe. Thiếu Think = dễ loop vô hạn.

  2. Function Calling + MCP - cách model nói chuyện với thế giới thực. MCP là open standard đang thống trị 2026.

  3. Task Decomposition - task graph + chiến lược sequential vs parallel.

  4. Memory System - 3 loại bộ nhớ: short-term, long-term, working.

  5. Context Management - giới hạn cứng cần quản lý chủ động, không thể nhét tất cả vào một lần.

Phần 2 sẽ cover 5 khái niệm tiếp theo: ReAct pattern, Multi-Agent collaboration, Error handling, Safety control và cách chọn framework phù hợp.