- Multi-agent system của Anthropic vượt trội single-agent 90.2% trên bài test nghiên cứu phức tạp, nhờ kiến trúc Lead Agent - Sub-Agents song song - Citation Agent.
- Context isolation là lý do cốt lõi: mỗi sub-agent có context window độc lập, tránh 'context rot' khi xử lý nhiều chủ đề.
- Parallel tool calling cắt 90% thời gian so với tìm kiếm tuần tự.
- Token tiêu thụ cao hơn 15x chat thông thường - chỉ hợp lý khi task value đủ cao.
TL;DR
- Agent là AI biết tự hành động - gọi tool, lập kế hoạch, điều chỉnh từ feedback - hoạt động theo vòng lặp ReAct (Reason → Act → Observe)
- Dùng single LLM call cho task đơn giản, Workflow cho task có bước cố định, Agent cho bài toán mở không biết trước cần bao nhiêu bước
- Multi-agent giải quyết 2 giới hạn của single agent: context rot (context window quá tải khi xử lý nhiều chủ đề) và tốc độ tuần tự
- Anthropic đo được: multi-agent (Claude Opus 4 orchestrator + Sonnet 4 sub-agents) vượt trội single-agent 90.2% trên bài test nghiên cứu phức tạp
- Deep Research là minh chứng thực tế: Lead Agent điều phối, 3-5 Sub-Agents tìm kiếm song song (cắt 90% thời gian), Citation Agent xác minh nguồn
Agent không phải "AI thông minh hơn" - đây là điểm khác biệt thực sự
Hầu hết mọi người hiểu nhầm Agent là model AI mạnh hơn. Thực ra, Agent là AI biết tự mình động tay.
AI chat thông thường: bạn hỏi "thời tiết Hà Nội hôm nay", AI trả lời "tôi không có thông tin thời gian thực". Xong. Agent khác: nó tự gọi weather API, trả về "Hà Nội hôm nay 28°C, có mây, phù hợp ra ngoài".
Agent có 3 khả năng cốt lõi:
- Gọi tool - tìm kiếm web, đọc database, chạy code, gọi API nội bộ
- Tự lập kế hoạch - nhận task phức tạp, tự chia thành bước nhỏ theo ngữ cảnh
- Điều chỉnh từ kết quả - nếu tìm kiếm ra dữ liệu cũ 2023, tự sửa query thành "2025" và thử lại
Vòng lặp này gọi là ReAct (Reasoning + Acting): suy nghĩ → hành động → quan sát kết quả → suy nghĩ tiếp, lặp cho đến khi task xong.
Workflow hay Agent? Nguyên tắc chọn đúng
Nguyên tắc từ first principles: bắt đầu đơn giản nhất, chỉ thêm độ phức tạp khi thực sự cần.
- Task đơn giản (phân loại văn bản, tóm tắt, Q&A đơn): một LLM call với prompt tốt là đủ
- Task trung bình (tạo content → dịch → kiểm tra): dùng Workflow - luồng cố định, dễ debug, biết trước từng bước
- Task phức tạp (nghiên cứu thị trường mới, phân tích GitHub issue lạ, xử lý customer service đa tình huống): mới cần Agent
Câu hỏi để phân biệt: task này có thể viết thành quy trình ổn định trước không? Được thì dùng Workflow. Không được, mới xét Agent.
Tại sao single Agent không đủ cho bài toán lớn
Single Agent giỏi, nhưng có 2 giới hạn cứng:
1. Context window quá tải ("context rot")
AI xử lý context theo cơ chế attention của Transformer: mỗi token phải tính quan hệ với mọi token khác. 100k token = 10 tỷ phép tính quan hệ. Context càng dài, attention càng phân tán - model bắt đầu "quên" hoặc ưu tiên sai thông tin.
Thực nghiệm của LangChain: single agent nghiên cứu 3 chủ đề song song liên tục đặt query chồng chéo, mỗi chủ đề được nghiên cứu ít sâu hơn so với khi tách riêng. Context của Anthropic, DeepMind và OpenAI lẫn vào nhau trong cùng một window - lãng phí và kém chất lượng.
2. Tốc độ tuần tự
Single agent chỉ làm được một việc mỗi lần. Nghiên cứu 3 chủ đề = 3 lần tìm kiếm nối tiếp. Multi-agent chạy song song: 3 agent × 3+ tool/agent, thời gian nghiên cứu giảm tới 90%.
Bên trong kiến trúc Multi-Agent thực tế
Multi-agent giải quyết cả 2 vấn đề trên bằng cách phân tán context và song song hóa:
Context isolation: mỗi sub-agent có context window riêng, chỉ biết về sub-task của mình. Lead Agent chỉ nhận kết luận tóm tắt từ sub-agents, không nhận raw data. Nguyên tắc: truyền kết luận, không truyền quá trình.
Parallel execution: Lead Agent spawn 3-5 sub-agents cùng lúc, mỗi agent dùng 3+ tool song song. Anthropic đo: multi-agent (Claude Opus 4 orchestrator + Sonnet 4 sub-agents) vượt trội single-agent Claude Opus 4 đơn lẻ 90.2% trên internal research eval - đặc biệt rõ với bài toán cần khám phá nhiều hướng độc lập đồng thời.
Lưu ý quan trọng: multi-agent tốn nhiều token hơn - khoảng 15x so với chat thông thường. Anthropic khuyến cáo chỉ dùng khi task value đủ cao để bù chi phí.
Deep Research: Multi-Agent trong thực tế
Deep Research (Anthropic, OpenAI, LangChain...) là ứng dụng điển hình nhất của kiến trúc multi-agent. Có 3 role:
- LeadResearcher (Main Agent): nhận yêu cầu, làm rõ scope, lập kế hoạch, tạo sub-agents, tổng hợp kết quả cuối
- Sub-Agents: mỗi agent nhận một sub-topic, chạy vòng lặp tìm kiếm riêng (tìm → đánh giá → refine query → tìm tiếp), trả về bản tóm tắt đã lọc
- CitationAgent: xử lý báo cáo cuối, map từng claim về source gốc
Điểm thiết kế quan trọng từ thực tế Anthropic:
- Sub-agent dùng interleaved thinking: sau mỗi kết quả tool, tự đánh giá chất lượng và refine query tiếp theo - không chạy theo script cứng
- Sub-agent clean kết quả trước khi trả về: 30,000 chữ raw → 3,000 chữ tóm tắt có cấu trúc. Đây là bước tiết kiệm token quan trọng nhất
- Lead Agent lưu plan vào Memory ngay từ đầu (context > 200k token bị truncate nên plan cần persist độc lập)
Bài học từ việc tối ưu system: chỉnh prompt để sub-agent bắt đầu với query ngắn-rộng rồi thu hẹp dần, thay vì query dài-cụ thể ngay từ đầu, đã giúp cải thiện chất lượng đáng kể. Một tool-testing agent tự viết lại mô tả tool bị lỗi giúp các agent sau tránh sai lầm tương tự - giảm 40% thời gian hoàn thành task.
Cơ hội thực chiến và điều cần lưu ý
Multi-agent không phù hợp cho mọi bài toán. Task cần shared context chặt (lập trình với nhiều dependencies) hoặc ít phần parallelizable thì không phù hợp. Hệ thống cần đầu tư vào: tracing đầy đủ, checkpoint định kỳ, và human-in-the-loop cho hành động quan trọng.
Với bài toán đúng loại - nghiên cứu thị trường, phân tích dữ liệu phức tạp, customer service đa tình huống, knowledge base doanh nghiệp - đây là hướng có giá trị rõ ràng. Dự án customize Deep Research enterprise hiện có giá khoảng $10,000-$20,000 USD mỗi dự án.
Kết
Multi-agent không phải buzzword - đây là giải pháp kỹ thuật cụ thể cho giới hạn cụ thể của single agent. Context isolation + parallel execution là 2 cơ chế cốt lõi. Deep Research là blueprint thực tế để xem chúng hoạt động ra sao.
Nếu bạn đang xây dựng hệ thống AI xử lý bài toán mở, cần nhiều nguồn thông tin, hoặc không thể biết trước số bước cần thiết - đây là kiến trúc đáng nghiên cứu kỹ.
via Anthropic Engineering · LangChain Open Deep Research · Redis AI Agent Architecture 2026
