TL;DR

Một developer Trung Quốc đang chạy một agency UI design hoàn toàn tự động bằng 6 AI agent trên Claude Sonnet 4.6. Không có đồng nghiệp, không có project manager.

Chỉ có một MacBook, một API key, và một hệ thống orchestration tự tìm khách hàng, tự pitch, tự thiết kế 24/7. Doanh thu: $32,000/tháng. Chi phí API: $480/tháng.

Shenzhen vs. Một MacBook

Các agency thiết kế truyền thống ở Thâm Quyến vẫn đang duy trì team 8 người với mức lương cố định để đạt cùng volume công việc. Không phải vì họ không biết AI - mà vì chưa ai xây được hệ thống thay thế toàn bộ pipeline từ tìm khách đến giao hàng.

Người này đã làm được. Và con số không nhỏ: 66 đồng doanh thu cho mỗi đồng bỏ ra.

Bài này mô tả chi tiết hệ thống, bao gồm cả system prompt của orchestrator và log thực tế từ các phiên làm việc.

Hệ Thống 6 Agent Hoạt Động Thế Nào

Sáu agent được thiết kế theo nguyên tắc phân quyền rõ ràng - mỗi agent làm đúng một việc, không agent nào viết vào file mà agent khác đang xử lý:

  • Hunter - Quét internet tìm các SaaS và e-commerce có UI lỗi thời. Kết quả điển hình: 213 site/ngày, 31 site có redesign trước 2020, 14 site có Lighthouse score dưới 65, 6 site đang có active RFP.

  • Auditor - Chạy từng site qua Google Lighthouse và kiểm tra WCAG accessibility. Tạo báo cáo kỹ thuật để Pitcher có dữ liệu cụ thể khi pitch.

  • Pitcher - Viết cold outreach cá nhân hóa kèm screenshot before/after. Output: ~28 proposal/ngày. Tỉ lệ chuyển đổi ghi nhận: 5 replies, 3 discovery calls từ 27 email gửi đi.

  • Splitter - Nhận dự án được chấp nhận, chia thành các milestone có kiểu dữ liệu rõ ràng. Trung bình 3 dự án/tuần.

  • Designer - Sinh Figma mockup và Tailwind component. Export frame về file system local.

  • Checker - Chạy eval trên mọi artifact trước khi xuất. Khi điểm design system eval dưới 0.88, hệ thống dừng và chờ human review.

Orchestrator - chạy trên Claude Code Router - sở hữu toàn bộ quyền ghi file. Các subagent chỉ đọc. Shared state đi qua file system, không qua shared memory, loại bỏ hoàn toàn race condition.

System prompt của orchestrator ghi rõ: "you never let 2 sub-agents touch 1 file. you stop and request human approval only when an invoice exceeds $5,000 or when the design system eval score drops below 0.88."

Kinh Tế Học: $480 Vào, $32,000 Ra

Token usage khoảng 4 triệu token/ngày, tương đương 120 triệu token/tháng. Với Claude Sonnet 4.6 giá $3/triệu token input và $15/triệu token output, kèm theo prompt caching tiết kiệm 90% - tổng hóa đơn API chỉ $480/tháng.

Một vài con số đáng suy nghĩ:

  • Agency 8 người ở Thâm Quyến: lương tối thiểu $2,000 - $4,000/người/tháng = $16,000 - $32,000 chi phí nhân sự, chưa kể overhead

  • Hệ thống này: $480 API + điện + MacBook (amortized) = dưới $600/tháng tổng chi phí vận hành

  • Hệ thống chạy 24/7, không cần nghỉ phép, không bị burnout, không miss deadline vì lý do cá nhân

Đây không phải AI hỗ trợ con người làm nhanh hơn. Đây là AI thay thế toàn bộ business unit.

Tại Sao Kiến Trúc Này Hoạt Động

Điểm then chốt không phải ở model mạnh hay prompt hay - mà ở thiết kế ranh giới quyền hạn.

Theo nghiên cứu về kiến trúc Claude Code, các hệ thống multi-agent hoạt động tốt nhất khi subagent nhận context task riêng biệt và chỉ trả về summary - không phải full conversation history. Điều này ngăn context của orchestrator phình to khi điều phối nhiều agent song song.

Ba yếu tố làm hệ thống này ổn định:

  1. File system làm shared state - Không có race condition vì orchestrator là entity duy nhất ghi file. MCP server làm interface cho external tools.

  2. Eval gate cứng - Checker chạy trước mọi output. Điểm dưới 0.88 = dừng hệ thống. Invoice trên $5,000 = wake human. Hai trigger này định nghĩa chính xác khi nào AI không đủ thẩm quyền.

  3. Specialization thay vì generalization - Mỗi agent làm một việc và làm tốt việc đó. Hunter không pitch. Pitcher không design. Checker không generate - chỉ evaluate.

Những Gì Mọi Người Hay Bỏ Qua

Hệ thống này không phải không có giới hạn. Lighthouse automation chỉ bắt được 30-40% lỗi WCAG - phần còn lại cần human judgment. Điều đó có nghĩa là Auditor đang triage, không phải audit đầy đủ.

Designer sinh Figma mockup qua API - nhưng chất lượng Figma automation hiện tại vẫn còn giới hạn với các interaction phức tạp. Khả năng cao developer này đang làm một số review thủ công trước khi gửi cho client, dù post không đề cập.

Và con số $32,000/tháng là doanh thu, không phải lợi nhuận. Chi phí thực sự cần tính thêm: thời gian setup, maintain system prompt khi edge case xuất hiện, và giá trị thời gian của developer khi hệ thống cần can thiệp.

Dù vậy, ngay cả với những giới hạn này, đây vẫn là một trong những case study thuyết phục nhất về autonomous business operation bằng AI.

Takeaway

Điều đáng chú ý không phải là con số $32,000 - mà là cấu trúc quyết định bên trong system prompt:

"you stop and request human approval only when an invoice exceeds $5,000 or when the design system eval score drops below 0.88"

Hai trigger này định nghĩa chính xác biên giới giữa AI có thể tự quyết và AI cần hỏi. Không phải "hỏi khi không chắc" - mà là những con số cứng, đo được, không mơ hồ.

Đây có lẽ là bài học quan trọng nhất từ case study này: AI agent hoạt động tốt không phải khi được trao quyền tự quyết tuyệt đối, mà khi biên giới quyền hạn được định nghĩa rõ ràng bằng ngưỡng số đo cụ thể.

Mô hình "solo operator + agent swarm" đang thay thế small agency model truyền thống - không phải từ từ, mà ở tốc độ $32,000/tháng.

Via: arXiv - Claude Code Design Space, Claude Sonnet 4.6 Pricing.