Kiến trúc Agentic AI: Mental Model để thiết kế hệ thống đa tác tử

TL;DR

Kỹ sư Neha Sharma chia sẻ một mental model rất rõ ràng để hiểu và thiết kế Agentic AI dựa trên blog của Anthropic. Hệ thống Agentic AI không chỉ là một chatbot thông minh hơn - đó là một kiến trúc hoàn chỉnh gồm 8 tầng từ orchestration đến infrastructure, nơi nhiều AI agent phối hợp để hoàn thành các tác vụ phức tạp mà một agent đơn lẻ không thể làm tốt. Multi-agent systems mang lại hiệu suất tăng 90.2% so với single-agent, nhưng cũng dùng gấp 15 lần token - đây là trade-off cốt lõi bạn cần hiểu trước khi thiết kế.

Từ tweet đến mental model

Tweet của @hellonehha với 2,100 likes và 505K views chỉ trong vài ngày phản ánh một nhu cầu thực tế: rất nhiều người đang đọc về Agentic AI nhưng chưa có framework rõ ràng để hình dung toàn cảnh. Khi bạn cố thiết kế một hệ thống AI tự chủ, câu hỏi đầu tiên luôn là: tôi cần bao nhiêu tầng? Tầng nào là bắt buộc? Bắt đầu từ đâu?

Mental model gồm 8 tầng mà Neha trình bày - dựa trực tiếp từ nghiên cứu của Anthropic - là câu trả lời thực dụng nhất hiện nay. Không phải một tầng nào quan trọng hơn tầng nào; tất cả phải hoạt động đồng bộ.

8 tầng kiến trúc Agentic AI

Hãy bắt đầu bằng câu hỏi đơn giản nhất: một hệ thống Agentic AI gồm những gì?

Tầng 1 - Orchestration / Control Plane

Đây là bảng điều khiển trung tâm của toàn hệ thống. Orchestration layer đảm nhận 5 chức năng: phân tách task (Task Decomposition), chọn agent phù hợp (Agent Selection), quản lý kế hoạch thực thi (Plan & Execution Manager), duy trì trạng thái (State & Context Manager), và thực thi guardrails (Policy Enforcer).

Anthropic mô tả hai loại hệ thống: Workflows (luồng cố định do kỹ sư định nghĩa) và Agents (LLM tự quyết định bước tiếp theo tại runtime). Orchestration layer là nơi ranh giới đó được thiết lập.

Tầng 2 - Agent Layer (Specialized Agents)

Đây là tầng gồm các agent chuyên biệt: Research Agent (tìm kiếm & phân tích thông tin), Reasoning Agent (lên kế hoạch, ra quyết định), Action Agent (thực thi hành động, gọi tool), Data Agent (query và xử lý dữ liệu), Communication Agent (tổng hợp & truyền đạt kết quả).

Điểm mấu chốt từ nghiên cứu Anthropic: không phải model mạnh hơn mới tốt hơn - kiến trúc orchestration quan trọng hơn model capability. Hệ thống Claude Opus 4 (orchestrator) + Claude Sonnet 4 (subagents) vượt trội 90.2% so với chỉ dùng Opus 4 đơn lẻ.

Tầng 3 - Tools & Integrations

Agent không có tool thì chỉ là chatbot. Tầng tool gồm: Web Search, APIs, Code Execution, Databases, File/Doc Processing, và Other Services. Model Context Protocol (MCP) của Anthropic đang nổi lên như chuẩn thống nhất để agent discover và invoke tool qua một interface duy nhất - giảm đáng kể chi phí tích hợp.

Tầng 4 - Memory & Knowledge

Đây là "bộ não lưu trữ" của hệ thống - và nhiều đội thường underestimate tầng này:

Short-term Memory: Context window hiện tại của conversation
Long-term Memory: Vector DB (Pinecone, Weaviate, FAISS) lưu trữ persistent knowledge
Knowledge Base: Tài liệu, docs, domain knowledge
Episodic / Event Store: Lịch sử hành động, interaction history
User / Org Profile Store: Context về người dùng và tổ chức

Cảnh báo thực tế: context window phình to rất nhanh khi agent hops nhiều bước. Không có active compaction (summarization, selective pruning), hệ thống sẽ hit model limits hoặc xuống cấp chất lượng.

Tầng 5 - Monitoring & Observability

Neha nhấn mạnh đây là tầng quan trọng nhất - và đúng vậy. Với hệ thống non-deterministic (cùng input, output có thể khác nhau giữa các lần chạy), traditional monitoring không đủ. Cần 4 loại:

Tracing & Logging: end-to-end traces qua mọi agent hop
Metrics & Dashboards: latency, token cost, tool call count
Alerts & Notifications: anomaly detection, failure triggers
Audit & Compliance: logs đầy đủ cho compliance review

Tầng 6 - Reliability & Failure Management

Agentic AI chạy nhiều bước - lỗi ở bước 3/20 có thể corrupt toàn bộ chain. Tầng này xử lý: Error Detection, Retry & Backoff, Fallback / Alternate Agents, Human-in-the-loop, và Circuit Breaker.

Điểm khác biệt so với microservices truyền thống: Human-in-the-loop là first-class concern, không phải edge case. Biết khi nào cần escalate lên con người là kỹ năng thiết kế quan trọng.

Tầng 7 - Governance & Security

Khi agent có khả năng ghi vào database, gửi email, thực hiện giao dịch tài chính - governance không còn là optional. Cần: Authentication & Authorization (per-agent, principle of least privilege), Data Privacy & PII Protection, Policy Enforcement, Model & Prompt Guardrails, Compliance & Audit. Lưu ý quan trọng: mỗi agent trong chain phải độc lập enforce data access controls cho identity của user gốc - không thể tin tưởng upstream agent đã lọc đủ.

Tầng 8 - Foundation / Infrastructure

Lớp nền tảng cross-cutting cho toàn hệ thống: LLM Providers, Model Gateway (routing, rate limits, cost management), Vector DB, Data Storage (Blob/Object/SQL), Queue/Event Bus (Redis, Kafka, SQS), Cache (Redis, Memcached), Secrets Manager, CI/CD & Deployment.

Con số biết nói

Metric	Chat thường	Single Agent	Multi-Agent
Token usage	1x baseline	~4x	~15x
Thời gian task	-	100%	Giảm tới 90%
Hiệu suất (BrowseComp)	baseline	baseline	+90.2%
Token variance	-	80% performance	80% performance

Token usage chiếm 80% variance hiệu suất - nhiều hơn cả lựa chọn model. Bài học: trước khi chọn model to hơn, hãy tối ưu context và tool usage.

5 pattern orchestration chuẩn

Microsoft Azure Architecture Center đã chính thức hóa 5 pattern sau:

Sequential (Pipeline): Agents nối tiếp nhau theo chain tuyến tính. Dùng cho: multi-stage refinement, document processing, compliance workflows. Risk: lỗi đầu cascade toàn bộ.
Concurrent (Fan-out/Fan-in): Nhiều agent xử lý song song, kết quả được aggregated. Dùng cho: phân tích đa chiều (financial, sentiment, ESG đồng thời). Risk: cần conflict resolution.
Group Chat (Roundtable): Agents cộng tác trong shared conversation, có thể có human participant. Giới hạn ≤3 agents để kiểm soát. Risk: conversation loops.
Handoff (Routing/Triage): Agent chuyển control sang specialist phù hợp khi phát hiện domain thay đổi. Dùng cho: customer support, multi-domain queries. Risk: infinite handoff loops.
Magentic (Adaptive/Task-Ledger): Manager agent xây và liên tục cập nhật task ledger (kế hoạch) khi thu thập thêm thông tin từ specialists. Dùng cho: incident response phức tạp, open-ended research. Risk: chi phí cao, chậm hội tụ.

Ai nên quan tâm ngay

Agentic AI architecture không phải cho mọi use case. Microsoft khuyến cáo rõ: dùng direct LLM call nếu task đơn giản, single-agent với tools cho hầu hết enterprise use cases, và chỉ lên multi-agent khi thực sự cần cross-domain hoặc parallelization.

Bạn nên quan tâm nghiêm túc nếu:

Workflow của bạn cần ≥5 bước với phân nhánh logic phức tạp
Task cần nhiều domain expertise khác nhau trong cùng một quy trình
Bạn đang xây hệ thống research, code review, hoặc document processing tự động
Time-to-result là KPI quan trọng và parallelization có thể giúp

Người được lợi nhiều nhất hiện nay: knowledge workers xử lý research phức tạp (Anthropic báo cáo người dùng "tiết kiệm tới nhiều ngày làm việc"), engineering teams xây long-horizon coding agents, và enterprise teams với cross-functional workflows.

Góc nhìn phía trước

Giữa năm 2026, agentic AI đang dịch chuyển từ giai đoạn "impressive demo" sang "production-safe deployment". Ba xu hướng đáng theo dõi:

Async multi-agent execution: Từ sequential subagent (bottleneck hiện tại) sang truly parallel với async result aggregation
Model tiering per agent role: Không phải tất cả agent cần model to - classification/extraction dùng model nhỏ/rẻ hơn, chỉ reasoning/synthesis cần model capable
Evaluation maturation: LLM-as-judge pipelines (rubric-based: factual accuracy, citation quality, tool efficiency) thay thế exact-match test suites

"Agent Factory" đang nổi lên như framing mới - thay vì xây một agent, enterprises xây factories để generate, deploy, và govern cả fleet of agents cho các workflow khác nhau. Đây là shift quan trọng về cách tư duy về scale.

Via: Anthropic - Building Effective Agents, Anthropic Engineering - Multi-Agent Research System, Azure Architecture Center - AI Agent Orchestration Patterns.