Khóa học 22 chương thiết kế AI Agent - P3: Production, Observability và Agency

TL;DR

Phần khó nhất của AI agent không phải build - mà là vận hành trong production. P3 của series này đi vào 11 chương cuối của agentic-ai-system-course: từ kết nối với thế giới thực (human-in-the-loop, MCP), đến vận hành production-grade (observability, cost, safety) và đỉnh cao là agent tự chủ và tự tiến hóa.

Kết nối thế giới thực (Ch.12-14): Human, MCP và Subagents

Ch.12 - Human-in-the-Loop (HITL): Agent tốt biết khi nào cần dừng lại và hỏi con người. HITL module cho phép agent pause execution và yêu cầu approval trước các hành động có rủi ro cao - xử lý thanh toán, xóa file, gửi email quan trọng. Best practice năm 2026: bắt đầu deployment với human involvement ở mọi decision point quan trọng, giảm dần sau khi agent chứng minh độ tin cậy.

Ch.13 - Connectors & MCP: Model Context Protocol (MCP) là chuẩn kết nối agent với các hệ thống bên ngoài - database, API, file system, web. MCP chuẩn hóa cách agent "hỏi" context thay vì đoán mò, giảm hallucination và làm behavior observable hơn. Agents build trên Claude, ChatGPT, Vertex hay internal frameworks đều có thể tiêu thụ cùng governed context qua MCP interface.

Ch.14 - Skills & Subagents: Agent phức tạp không làm tất cả mọi thứ - chúng delegate. Skills là các capabilities pluggable; subagents là các agent con được spawn để xử lý task cụ thể. Pattern quan trọng: parent agent biết khi nào delegate và cho ai, subagent biết scope giới hạn của mình và báo cáo kết quả trở lại.

Production scale (Ch.15-17): Backend, Observability và Cost

Đây là block quan trọng nhất cho ai muốn deploy agent thực sự. Gartner dự báo 50% AI agent deployment failures đến từ insufficient governance và observability.

Ch.15 - Backend Infrastructure: Agent cần infrastructure khác với web app thông thường: async task queues, durable state management, timeout handling, và recovery logic. Harness (từ Ch.11) cần được backed bởi infrastructure đủ mạnh để handle concurrent agents, retry failures và survive restarts mà không mất state.

Ch.16 - Observability: Monitoring agent khác hoàn toàn monitoring software thường. Bạn không chỉ track latency và uptime - bạn cần track tại sao agent ra quyết định đó. Best practices 2026:

End-to-end tracing: Không chỉ prompt/response - trace toàn bộ: user intent → planner decisions → tool calls → data access → outcome
SDK-based instrumentation: Ưu tiên OpenTelemetry và SDK-based tools thay vì proxy-based gateways. Proxy = single point of failure + security risk (CVE-2025-66405 là ví dụ thực tế của SSRF vulnerability qua proxy)
Context graph: Giữ traces như durable business assets, không phải ephemeral debug logs - để có thể reconstruct lại bất kỳ agent run nào trong lịch sử
Hai level evaluation: Trace-level (từng reasoning step) và session-level (agent có đạt được mục tiêu người dùng không)

Ch.17 - Cost, Latency và Model Strategy: Token cost và latency là hai metric kinh doanh thực sự của agent. Chiến lược giảm cost:

Granular tracking per run, per agent type, per use case - để phát hiện hotspot
Trajectory mapping - tự động phát hiện recursive loops đốt token vô ích
Sub-task latency breakdown - biết bottleneck là ở model call, tool call hay data retrieval
Model routing: dùng model nhỏ hơn cho task đơn giản, model lớn cho reasoning phức tạp

AI Agent Production: Observability, Safety và Agency lifecycle

Chất lượng và vận hành (Ch.18-19): Safety và Operations

Ch.18 - Safety & Adversarial Inputs: Agent có quyền thực thi action thực tế nên rủi ro bảo mật cao hơn chatbot nhiều lần. Framework 4 tầng:

Prompt filtering: Phát hiện và chặn prompt injection trước khi model xử lý
Data protection: Agent chỉ được truy cập data đúng với scope được cấp
External access control: IAM cho agent phải nghiêm ngặt như (hoặc nghiêm hơn) cho người dùng thực
Response enforcement: Guardrails chặn output không phù hợp trước khi đến tay người dùng

Ch.19 - Operations & Forward-deployed: Vận hành agent trong production là chu kỳ liên tục: monitor metrics → phát hiện degradation → debug trace → tune → redeploy. Agent lifecycle management: design → train → test → deploy → monitor → optimize, lặp liên tục. Audit trail đầy đủ là yêu cầu compliance, không phải option.

Agency (Ch.20-21): Proactive và Self-evolving

Hai chương cuối trước design canvas đi vào đỉnh cao của agentic behavior.

Ch.20 - Proactive Agents: Thay vì chỉ phản ứng với prompt, proactive agent tự chủ theo đuổi mục tiêu. Chúng quan sát trạng thái hệ thống, phát hiện điều kiện cần hành động, và tự khởi động workflow mà không cần trigger từ người dùng. Ví dụ: agent supply chain tự điều chỉnh procurement khi phát hiện inventory risk, không cần ai hỏi.

Ch.21 - Self-evolving Agents: Agent có khả năng học từ feedback và cải thiện behavior theo thời gian. Thông qua Agent Lifecycle Management có cấu trúc, performance data từ production được đưa ngược lại vào quá trình tối ưu - agent tốt dần lên theo hoạt động thực tế.

Design Canvas (Ch.22): Từ ý tưởng đến spec

Chương cuối cung cấp framework thiết kế agent của riêng bạn. Design canvas là "cột sống" để chuyển từ "tôi có ý tưởng" thành "tôi có specification". Cách dùng nhanh nhất: trỏ Claude Code vào Ch.22 và walk through canvas với project cụ thể của bạn.

Tổng kết series

Ba bài trong series này cover toàn bộ 22 chương của agentic-ai-system-course:

P1: Triết lý "Use Agent to Learn Agent" - tại sao học AI agent cần AI partner
P2: Kiến trúc cốt lõi - tool calls, memory, multi-agent coordination
P3: Production-grade - observability, safety, agency (bài này)

Khóa học hoàn toàn miễn phí, MIT license, không yêu cầu background kỹ thuật. Điểm khởi đầu: git clone repo, mở với Claude Code, đọc chương đầu tiên và hỏi AI một câu hỏi.

Chỉ 21% enterprise hiện đạt tiêu chí sẵn sàng cho AI agents (IDC). Khóa học này có thể là lý do bạn nằm trong 21% đó, không phải 79% còn lại.

via GitHub - bryanyzhu/agentic-ai-system-course