Nền tảng agent tự cải thiện: Khi coding agent build, chạy và tự nâng cấp chính mình

TL;DR

Ashpreet Bedi - tác giả của Agno (tiền thân là Phidata) - vừa công bố một auto-improving agent platform: nền tảng mà coding agent như Claude Code có thể tự build, chạy và cải thiện agent khác. Toàn bộ vòng đời phát triển agent được bao phủ bởi 5 prompt. Điểm mấu chốt: vì trace data, agent code, log và iteration tool đều nằm cùng một chỗ, coding agent có thể test end-to-end, sửa code và test lại liên tục - điều mà các stack đa vendor không thể làm được.

Vấn đề mà các agent platform hiện tại chưa giải quyết được

Hầu hết phần mềm không thể tự cải thiện vì input và output của nó nằm rải rác ở nhiều công cụ khác nhau. Để chạy vòng lặp auto-improvement, một coding agent phải ghép dữ liệu từ 3+ tool, mỗi tool có auth riêng và cách làm việc riêng.

Về lý thuyết là có thể. Nhưng trong thực tế - quá nhiều friction.

Agno giải quyết bằng cách thiết kế codebase đặc biệt cho auto-improvement:

Mọi action đều có API: chạy agent, đọc session, chạy eval - tất cả đều gọi được qua cURL hoặc bash.
Dữ liệu đặt cùng chỗ: sessions và traces nằm trong Postgres, coding agent trigger run và đọc kết quả mà không cần rời môi trường.
Log là vòng phản hồi thời gian thực: toàn bộ platform chạy local trên Docker. Vòng test - review chỉ ~5 giây.

5 workflow bao phủ toàn bộ agent lifecycle

How to build an Agent Platform - Agno architecture diagram

Mỗi workflow là một file markdown trong thư mục docs/. Claude Code đọc và thực thi:

Create - Scaffold agent mới. Claude hỏi vài câu về mục đích và tools cần dùng, tìm toolkit phù hợp qua Agno docs MCP, tạo agent file, đăng ký vào app/main.py, restart container và smoke-test qua cURL. 5-10 phút từ prompt đến agent.
Improve - Hardening agent hiện có. Claude đọc INSTRUCTIONS của agent, tạo 8-12 probe (golden-path, edge case, tool-selection, adversarial), chạy từng probe qua container, judge PASS/FAIL, sửa và re-run. Tối đa 5 vòng, dừng sớm khi tất cả pass. Zero input từ người dùng sau khi kick off.
Extend - Thêm capability mới. Người dùng mô tả thay đổi, Claude thực thi từng bước nhỏ có kiểm thử.
Hill Climb - Chạy toàn bộ eval suite, diagnose mọi failure và fix những gì trong phạm vi. Re-run full suite để bắt regressions.
Review - Quét toàn repo tìm drift giữa docs, code và config. Auto-fix những lỗi cơ học (stale path, missing env var); flag những vấn đề lớn hơn.

Vòng lặp Improve - Hill Climb là điểm đột phá: agent tự cải thiện đệ quy với minimal oversight. Đây là điều gần như không thể làm thủ công.

Kiến trúc kỹ thuật

AgentOS Control Plane UI - WEBSEARCH và CODESEARCH agents

Platform gồm 5 layer:

Runtime: FastAPI chạy Agno AgentOS - thực thi agent với SSE streaming, session management, scheduling và RBAC
Storage: PostgreSQL + pgvector - lưu sessions, memory, knowledge, traces và eval history
Connectors: hàng trăm toolkit và MCP server kết nối qua Agno
Interfaces: Slack (pre-wired), Discord, Telegram, custom UI - identity resolution thống nhất
Infrastructure: Docker local, Railway hoặc container host cho production

Language breakdown: Python 56.5%, Shell scripts 40.1%, Dockerfile 3.4%.

Eval system dùng 2 loại: AgentAsJudgeEval (LLM judge theo rubric, binary pass/fail) và ReliabilityEval (tool-call assertion). Kết quả log vào Postgres để tracking lịch sử.

Tự cải thiện hoạt động như thế nào trong thực tế

AgentOS Connect dialog - Local và Live environment với JWT auth

Khi chạy Improve, Claude Code:

Đọc INSTRUCTIONS của agent, suy ra 8-12 probe từ spec
Chạy từng probe qua container live bằng cURL, đọc response và tool calls từ log
Judge PASS/FAIL theo những gì INSTRUCTIONS thực sự hứa hẹn
Với mỗi failure, chọn lever phù hợp: tighten rule, thêm rule, swap tool, tăng num_history_runs
Edit agents/<slug>.py, hot-reload, re-run chỉ các probe đã fail
Lặp tối đa 5 vòng, dừng sớm khi tất cả pass

Khi chạy Hill Climb, quy trình tương tự nhưng áp dụng cho toàn bộ eval suite - không chỉ một agent. Cuối cùng re-run full suite để bắt regressions mới phát sinh.

Khi chạy Review (nên chạy trước mỗi release hoặc sau refactor lớn): mọi agent file trên disk phải được đăng ký trong app/main.py, mọi env var mà code đọc phải có trong example.env, mọi path trong markdown phải còn tồn tại. Drift cơ học được auto-fix; vấn đề lớn hơn được flag với recommended next step.

Ai nên dùng ngay

Indie hacker / solo developer: build micro-agent trong coffee break - tóm tắt Slack overnight, draft weekly update, highlight repo issues. Những task trước đây không đủ justify một multi-day project.
Team AI nhỏ: muốn owned infrastructure, không bị vendor lock-in, dữ liệu nằm trong database của mình.
Bất kỳ ai đang maintain agent thủ công: thay vì click và test bằng tay cả ngày, Improve workflow làm điều đó fully automated.

Platform phù hợp nhất khi bạn own full stack. Nếu bạn đang dùng scattered multi-vendor setup, friction sẽ vẫn còn đó.

Giá và cách bắt đầu

Local: miễn phí, chạy Docker
Production: $20/tháng trên Railway
Enterprise: os.agno.com, 30-day trial với code PLATFORM30

Setup:

git clone https://github.com/agno-agi/agent-platform-railway.git
cp example.env .env
# Điền OPENAI_API_KEY (hoặc provider khác)
docker compose up -d --build

Truy cập http://localhost:8000/docs. Sau đó mở Claude Code và gõ: "Run create-new-agent.md in a new branch."

Kết

Agent platform là danh mục phần mềm đầu tiên mà actions, data và iteration tool nằm đủ gần nhau để coding agent có thể test end-to-end, sửa code và test lại đến khi agent cải thiện. Điều đó có nghĩa là platform host vòng lặp chính là thứ đầu tiên vòng lặp cải thiện.

Nếu 2025 là năm của single AI assistant, 2026 là năm của coordinated agent teams - và Agno đang xây đúng infrastructure cho điều đó.

Repo: agno-agi/agent-platform-railway | via Ashpreet Bedi