TL;DR

Manifest là một LLM router mã nguồn mở (MIT) dành cho personal AI agents. Nó phân loại mỗi request trong dưới 2ms bằng thuật toán 23 chiều, chọn tier (simple / standard / complex / reasoning) rồi route tới model rẻ nhất đủ sức xử lý trong các provider bạn đã kết nối. Team công bố mức giảm chi phí lên đến 70%, hỗ trợ 300+ model, có cả bản cloud và self-host Docker.

What's new

Roundtable vừa giới thiệu Manifest như một layer "middleman" gọn nhẹ đứng giữa agent của bạn và các nhà cung cấp LLM. Điểm khác biệt cốt lõi: thay vì để agent gọi thẳng một model đắt tiền cho mọi truy vấn, Manifest chấm điểm từng request rồi chọn model tương xứng mức độ khó. Câu "1+1=?" không cần đi tới GPT-4 class; còn câu hỏi suy luận phức tạp sẽ được đẩy lên tier reasoning.

  • Thuật toán scoring chạy <2ms, cục bộ (local), không phải call thêm network.
  • 23 chiều: 13 tín hiệu keyword + 10 tín hiệu cấu trúc câu truy vấn.
  • Mỗi tier có tối đa 5 fallback model nếu primary fail.
  • Router miễn phí, không per-token markup — bạn chỉ trả hoá đơn của provider gốc.

Why it matters

Với indie hacker và team nhỏ chạy AI agent production, chi phí token là khoản đốt tiền lặng lẽ nhất. Một agent dùng flat-rate Claude Sonnet hay GPT-4 cho mọi tác vụ dễ vượt budget trong một tuần — đặc biệt khi phần lớn truy vấn thực tế là tasks đơn giản như phân loại, format hoặc trả lời ngắn. Manifest đưa ra cách tiếp cận đơn giản: đừng gọi Ferrari để đi chợ. Nó phân tách traffic theo độ khó và chỉ dùng model đắt khi thật sự cần.

Quan trọng hơn, vì toàn bộ scoring logic là open source, bạn có thể audit từng quyết định routing thay vì tin tưởng một black-box proxy proprietary. Điều này đặc biệt giá trị với các team phải trả lời câu hỏi "tại sao request X lại chạy trên model Y?" cho compliance hoặc incident review. Bạn đọc code, bạn biết. Không có surprise ở cuối tháng.

Thêm nữa, model landscape đang bùng nổ — DeepSeek, Qwen, MiniMax, xAI Grok liên tục ra model rẻ/ngon hơn. Một router tốt giúp bạn swap provider mà không phải rewrite code agent: chỉ cần add API key và Manifest tự cân đối tier. Lock-in giảm, thương lượng với provider dễ hơn.

Technical facts

PropertyChi tiết
Scoring latency<2ms / request (local)
Scoring dimensions23 (13 keyword + 10 structural)
Tierssimple / standard / complex / reasoning
FallbackTối đa 5 model / tier
Model coverage300–600+ model qua OpenAI, Anthropic, Gemini, DeepSeek, xAI, Mistral, Qwen, MiniMax, custom OpenAI-compatible
Cost savings (claim)Lên tới 70%
LicenseMIT
Install self-host1 lệnh Docker, boot ~30s tại localhost:3001

Comparison vs OpenRouter

AspectManifestOpenRouter
Open sourceCó (MIT)Không
Self-hostCó — DockerKhông
PrivacyMetadata-only / fully localProxy full request
Routing transparency23-dim scoring công khaiBlack box
Router fee$0Per-token markup

So với các router kiểu NVIDIA llm-router hay vLLM Semantic Router, Manifest định vị rõ vào segment personal / indie-agent: plug-and-play Docker + dashboard + budget alert, không đòi hạ tầng Kubernetes phức tạp.

Use cases

  • Indie dev chạy agent cá nhân (Hermes, LangChain, OpenClaw, custom) cần cắt hoá đơn token mà vẫn giữ chất lượng output cho các tác vụ khó.
  • Team sản phẩm muốn set budget riêng cho từng agent (prod vs experimental) + email alert khi chạm ngưỡng, tránh surprise bill.
  • Workload privacy-sensitive: self-host để prompt không rời máy bạn — chỉ metadata (model, token count, latency) được log trong PostgreSQL cục bộ.
  • Multi-provider setup: expose 1 endpoint OpenAI-compatible duy nhất cho toàn bộ SDK của team, đỡ maintain nhiều client riêng lẻ.
  • A/B test models: kết nối nhiều provider cùng tier rồi dùng fallback / weight routing để đo xem model nào vừa rẻ vừa tốt cho workload thực tế của bạn.

Flow điển hình: agent gọi manifest/auto → scorer đánh giá độ khó query → chọn tier → forward đến model rẻ nhất trong tier (ví dụ Gemini Flash cho simple, Claude Sonnet cho complex) → ghi log token + cost vào dashboard. Toàn bộ mất thêm chưa đến 2ms so với call thẳng.

Limitations & pricing

Pricing: Manifest miễn phí — cả cloud lẫn self-host đều không charge routing fee. Bạn chỉ trả hoá đơn LLM provider.

  • Con số 70% saving hiện chưa có benchmark độc lập của bên thứ ba kiểm chứng.
  • Chuyển mode cloud ↔ local không tự migrate dữ liệu giữa hai database.
  • Local mode cần SMTP ngoài (Mailgun / Resend / SendGrid) để gửi email alert.
  • Độ chính xác phân loại tier chưa có metric công bố chính thức.

What's next

Manifest đang hoạt động tại repo mnfst/manifest với Docker install, CI, cộng đồng Discord. Các hướng cần theo dõi tiếp: benchmark công khai cho con số 70%, thêm native plugin cho các agent framework phổ biến, và khả năng migrate data giữa local ↔ cloud. Nếu bạn đang đốt token cho agent production, đây là dự án đáng thử cuối tuần.

Nguồn: manifest.build, GitHub mnfst/manifest, Manifest docs, Roundtable announcement.