TL;DR

Future AGI, Inc. vừa open-source (Apache 2.0, self-hostable) toàn bộ nền tảng engineering cho AI agent. Thay vì stitch Langfuse + Braintrust + Helicone + Guardrails AI, giờ chỉ 1 platform bao 6 trụ: Simulate → Evaluate → Protect → Monitor → Gateway → Optimize, data chạy thành 1 feedback loop để agent tự cải thiện từ production traces.

Con số đáng để ý: gateway Go-based ~29k req/s với P99 ≤ 21ms (guardrails on), 72+ eval metrics chạy local zero-network, 18 guardrail scanners + 15 vendor adapter (Lakera, Presidio, Llama Guard), OpenTelemetry tracing cho 50+ framework (LangChain, CrewAI, LlamaIndex, DSPy…), và 6 thuật toán tối ưu prompt gồm GEPA, PromptWizard, ProTeGi, Bayesian, Meta-Prompt, Random Search. Pro plan $50/month flat — không tính per-seat.

Cái gì mới

Trước đây Future AGI có SaaS cloud + SDK eval. Đợt này họ release full codebase platform dưới Apache 2.0: repo future-agi/future-agi đã public với docker-compose stack, Python/TypeScript SDK, Go gateway. Core README ghi thẳng: "Nightly release for early testing. Expect rough edges. Stable coming soon."

SDK ai-evaluation vừa bump Python 1.1.0 / TypeScript 0.2.0 kèm cookbooks runnable. Ecosystem split thành nhiều repo độc lập (mỗi SDK Apache/MIT tự đứng): traceAI cho OTel instrumentation, ai-evaluation cho 72+ metric, agent-opt cho 6 thuật toán tối ưu, simulate-sdk cho voice agent qua LiveKit + Silero VAD, agentcc là client gateway.

Tại sao việc này quan trọng

LLM agent hay "pass hết eval trong dev, rồi hallucinate chính sách refund không tồn tại trong production". Team hiện stitch nhiều vendor — eval ở chỗ này, tracing chỗ khác, guardrail chỗ khác nữa — và feedback loop giữa chúng không bao giờ đóng. Future AGI đánh đúng vào khe hở đó: mọi trace prod quay lại làm training data cho prompt optimizer, mọi vi phạm guardrail thành case simulation cho release kế tiếp. Đó là lý do họ dùng từ self-improving thay vì observability.

Thêm nữa: toàn bộ interface mở — OpenTelemetry OTLP cho trace, OpenAI-compatible HTTP cho gateway, Postgres/ClickHouse SQL cho storage. Team nào đã có phần nào trong stack thì drop-in thay thế từng layer được.

Số liệu kỹ thuật

Thành phầnChỉ số
Gateway throughput~29,000 req/s trên t3.xlarge
Gateway P99 latency (guardrails on)≤ 21 ms
Weighted routing~9.9 ns
LLM providers100+ (OpenAI, Anthropic, Gemini, Bedrock, Mistral, Groq, xAI, self-hosted Ollama/vLLM…)
Routing strategies15 (load balance, semantic cache, virtual keys, MCP, A2A)
Local eval metrics72+ (23 string, 14 JSON, 5 hallucination, 19 RAG, 11 agent/function)
Cloud eval templates100+
Guardrail scanners18 built-in + 15 vendor adapters + 14 guard models
Guardrail latency< 10 ms (sub-100ms end-to-end)
OTel framework instrumentors50+ (LangChain, LangGraph, LlamaIndex, CrewAI, DSPy, AutoGen, PydanticAI, Claude SDK, LiteLLM, Haystack, Instructor, Smol-agents)
Prompt optimization algorithms6 (GEPA, PromptWizard, ProTeGi, Bayesian, Meta-Prompt, Random Search)
Vector DBs6 (Pinecone, Weaviate, Chroma, Milvus, Qdrant, pgvector)
Voice platforms4 (VAPI, Retell, LiveKit, Pipecat)

GEPA (Genetic Pareto) là thuật toán đáng chú ý — evolutionary, được accept ở ICLR 2026 — evolve prompt qua generations bằng reflection + mutation. ProTeGi thì apply "textual gradients": sinh critique từ failure, patch prompt dựa trên critique.

So với Langfuse, Braintrust, Helicone, LangSmith

CapabilityFuture AGILangfusePhoenixBraintrustHelicone
Open source
Self-host
Agent simulation
Voice agent eval
LLM gateway built-in
Guardrails built-in
Prompt optimization

Về pricing, team 10 người dùng LangSmith trả $390/tháng ($39/user), Braintrust $249/tháng, Arize custom enterprise. Future AGI Pro flat $50/tháng — và Startup tier có $10K credits + 6 tháng Pro free.

Use case thực tế

Customer support: simulate hàng nghìn kịch bản refund/escalation trước launch. Khi bot draft "We offer full refund within 90 days, no questions asked", guardrail block và auto-correct về "30 days" theo policy PDF §3.1.

RAG pipelines: 42k queries, 99.1% grounded. Stress-test bằng adversarial & multi-hop, verify từng citation với source doc; fabricated claim bị remove trước khi trả. Case study: retrieval recall +8%, hallucination rate -67%.

Voice agents: đánh giá STT / LLM / TTS độc lập. Intercept SSN read-aloud trước synthesis (8ms), detect escalation tone và reroute về human. TTS name accuracy +9%, p99 latency -63% sau auto-optimization.

Code agents / PR review: AST-based vulnerability detection (15 detectors, multi-language), block SQL injection + hardcoded JWT secret trước merge. 0 CVEs qua 8.4k PR.

Internal copilots: test role-bypass (sales rep hỏi internal margin của Acme Corp → block + log). 24k actions, 0 data leak, 3 teams cover.

Customers đã deploy: Whatfix (500+ enterprise teams), Ottimate (10M+ API calls/day), Milestone Internet, Micron Technology.

Limitations & pricing

Cẩn trọng: stack đang ở nightly, stable version "coming soon" theo README. Helm chart v1 vẫn đang làm — hiện tại Kubernetes phải deploy bằng plain manifests trong deploy/. AWS Marketplace listing: "coming soon". Một số UI preview (agent simulation dashboard, optimize dashboard) trên landing page đang để note "coming soon".

Pricing hiện tại: Free cho small team, Startups $10K credits + 6 tháng Pro, Pro $50/tháng flat, Enterprise custom SLA. Compliance: SOC 2 Type II, GDPR, HIPAA, ISO 27001; zero data retention cho self-host; air-gapped / on-prem deploy available (không phone-home).

Sắp tới

Roadmap công khai trong README. Đáng chú ý:

  • Agent Changelog & Diff view — diff agent giữa version
  • Full Execution Tracing cho autonomous agent
  • Multi-modal agent support
  • Simulate CUA (Computer-Use Agents) và coding agents
  • Scheduled Simulations — chạy regression theo cron
  • Native CI/CD plugin (Jenkins, GitLab CI, CircleCI)
  • Session-level multi-turn tracing
  • Evaluation marketplace — community contribute metric
  • Fine-tuned judge models từ feedback data tích luỹ
  • On-premise deployment toolkit hoàn chỉnh

Repo chính: future-agi/future-agi (249⭐ tại thời điểm xem), ai-evaluation (93⭐), futureagi-sdk (44⭐). Team active trên Discord + GitHub Discussions.

Nguồn: future-agi/future-agi, futureagi.com, ai-evaluation SDK, futureagi-sdk, @hasantoxr breakdown.