Xây dựng hệ thống 4-agent với Claude: Từ zero đến production trong một cuối tuần

TL;DR

Một agent làm tất cả (research, viết, review, publish) trong cùng một session cho ra kết quả mediocre ở mọi hạng mục. Bốn agent chuyên biệt với handoff rõ ràng và một orchestrator điều phối cho ra kết quả xuất sắc vì mỗi agent chỉ làm đúng một việc. Anthropic đo được mức cải thiện +90.2% khi chuyển từ single-agent sang multi-agent system. Bài này hướng dẫn từng bước xây đội 4 agent trên Claude Code - hoàn thành được trong một cuối tuần.

Kiến trúc high-level của multi-agent research system - Anthropic

Tại sao 4 agent, không phải 1?

Khi yêu cầu một instance Claude duy nhất liên tục chuyển ngữ cảnh giữa research, viết lách, review và phân phối, bạn đang bắt model tối ưu hóa quá nhiều thứ cùng lúc. Kết quả: chất lượng không đồng đều, khó debug khi có lỗi, và không thể scale.

Số liệu từ thực tế nói lên điều đó rõ hơn bất kỳ lý thuyết nào:

Agent có 15-20 tools: độ chính xác chọn tool dưới 80% - nghĩa là cứ 5 bước thì có 1 bước đi sai hướng.
Agent chuyên biệt với 3-5 tools: chỉ làm đúng domain của mình, độ chính xác cao hơn đáng kể.
Execution song song: thay vì xử lý tuần tự N×T, toàn bộ thời gian co lại về bằng bước chậm nhất. Trong một ví dụ customer support thực tế, xử lý đồng thời hai loại yêu cầu hoàn tất trong 3.2 giây thay vì xử lý lần lượt.

Không ngẫu nhiên khi orchestrator-worker pattern chiếm 70% production deployments của các hệ thống multi-agent thực tế. Đây là pattern Anthropic dùng cho chính hệ thống Claude Research - lead agent điều phối, các subagents chạy song song trên các khía cạnh khác nhau của cùng một task.

Kiến trúc 4-agent: Vai trò và ranh giới

Số 4 không phải ngẫu nhiên. Bốn agent bao phủ toàn bộ vòng đời của knowledge work: tiếp nhận và nghiên cứu, sản xuất, kiểm soát chất lượng, và đầu ra.

Research Agent: Nhận topic hoặc brief, trả về research brief có cấu trúc. Không bao giờ viết lách hay publish.
Production Agent: Nhận research brief, trả về bản nháp hoàn chỉnh. Không research, không edit, không publish.
Quality Agent: Đánh giá bản nháp theo rubric định sẵn, hoặc approve hoặc trả về revision brief cụ thể. Không viết từ đầu, không publish.
Distribution Agent: Nhận nội dung đã approve, format theo từng platform và deploy. Không research, không viết, không đánh giá.
Orchestrator: Định tuyến task giữa các agent, monitor output, xử lý failure, đảm bảo workflow hoàn thành. Không làm sáng tạo, chỉ điều phối.

Process diagram cho multi-agent system - Lead Researcher, Subagents, Memory, Citation Agent

Thiết lập từng bước

Toàn bộ hệ thống cần ba thứ trước khi xây agent đầu tiên.

1. Cài Claude Code và cấu hình:

npm install -g @anthropic-ai/claude-code
claude

2. Tạo cấu trúc thư mục:

mkdir multi-agent-system && cd multi-agent-system
mkdir -p inbox research-briefs drafts approved-content distribution logs

Mỗi thư mục là một checkpoint: inbox/ nhận task, research-briefs/ nhận output của Research Agent, drafts/ nhận output của Production Agent, approved-content/ nhận những gì Quality Agent duyệt, distribution/ ghi lại những gì đã được publish, logs/ theo dõi mọi hành động để debug.

3. Viết master CLAUDE.md: File này là nguồn sự thật duy nhất mà mọi agent đọc trước khi bắt đầu task. Nó định nghĩa vai trò của từng agent, cấu trúc thư mục, tiêu chuẩn chất lượng, và hard rules không được vi phạm.

Sau đó, viết system prompt riêng cho từng agent dưới dạng file .md. Điểm quan trọng nhất trong system prompt của mỗi agent: phần Never does - liệt kê rõ những gì agent không được làm. Ranh giới rõ ràng là thứ ngăn agents vượt lãnh thổ của nhau và tạo ra chaos.

Con số thực tế từ production

Anthropic đo lường hệ thống của chính họ và công bố các con số cụ thể:

+90.2% hiệu suất: multi-agent (Claude Opus 4 làm lead + Claude Sonnet 4 subagents) so với single-agent Claude Opus 4 trên internal research eval.
15× nhiều tokens hơn: research agents dùng nhiều token hơn chat thông thường, nhưng deliver giá trị tương xứng cho complex tasks.
Giảm 90% thời gian nghiên cứu: parallel tool calling cho phép nhiều subagents tìm kiếm đồng thời thay vì tuần tự.
+40% task completion: chỉ nhờ tối ưu tool descriptions - phần engineering thường bị bỏ qua nhất.

Ba yếu tố giải thích 95% variance trong hiệu suất: token usage (80%), số lượng tool calls, và lựa chọn model. Kiến trúc đẹp nhưng token budget eo hẹp không giúp ích nhiều.

Clio embedding plot - phân loại các loại tác vụ nghiên cứu trong hệ thống Anthropic

Ai nên dùng ngay

Hệ thống 4-agent phù hợp khi bạn có knowledge work lặp lại với các phase rõ ràng và tiêu chuẩn chất lượng đo được. Nội dung (blog, newsletter, social media) là use case điển hình nhất. Nghiên cứu, coding workflows, và customer support cũng được Anthropic xác nhận hoạt động tốt trong production.

Theo State of AI Agents 2026: 80% tổ chức đã báo cáo measurable economic impact từ AI agents và 57% đang deploy multi-step agent workflows. Enterprise adoption đang tăng nhanh hơn SMB - 54% enterprise rất lạc quan so với 38% SMB.

Nếu bạn chưa có nhu cầu rõ ràng, Anthropic khuyến nghị bắt đầu bằng single LLM call được tối ưu tốt. Chỉ upgrade lên multi-agent khi tasks đủ phức tạp và bạn thấy rõ bottleneck ở đâu.

Kết: Xây agent đầu tiên cuối tuần này

Hệ thống 4-agent không đòi hỏi bằng computer science hay background DevOps. Nó đòi hỏi bạn hiểu một nguyên tắc rõ ràng: một nhóm chuyên gia luôn outperform một người làm tất cả mọi việc một mình - và điều này đúng với AI agents không kém gì tổ chức con người.

Bắt đầu từ Research Agent cuối tuần này. Tuần tiếp theo thêm Production Agent. Tuần thứ ba thêm Quality Agent. Tuần thứ tư bạn có đội đủ 4 người đang chạy.

Hệ thống không chỉ cho output tốt hơn ngay từ đầu - nó compound. Mỗi lần cập nhật CLAUDE.md với performance observations, toàn bộ team học theo. Một người chạy đội 4 agent sản xuất được output tương đương cả team 4 người - với tốc độ cao hơn và consistency cao hơn.

via Anthropic Engineering · Building Effective AI Agents · State of AI Agents 2026