- Manifest là LLM router mã nguồn mở (MIT) đứng giữa agent và các nhà cung cấp model.
- Nó chấm điểm mỗi request trong dưới 2ms bằng thuật toán 23 chiều rồi route đến model rẻ nhất đủ sức xử lý — giảm tới 70% chi phí cho personal AI agents, hỗ trợ 300+ model và cho phép self-host qua Docker.
TL;DR
Manifest là một LLM router mã nguồn mở (MIT) dành cho personal AI agents. Nó phân loại mỗi request trong dưới 2ms bằng thuật toán 23 chiều, chọn tier (simple / standard / complex / reasoning) rồi route tới model rẻ nhất đủ sức xử lý trong các provider bạn đã kết nối. Team công bố mức giảm chi phí lên đến 70%, hỗ trợ 300+ model, có cả bản cloud và self-host Docker.
What's new
Roundtable vừa giới thiệu Manifest như một layer "middleman" gọn nhẹ đứng giữa agent của bạn và các nhà cung cấp LLM. Điểm khác biệt cốt lõi: thay vì để agent gọi thẳng một model đắt tiền cho mọi truy vấn, Manifest chấm điểm từng request rồi chọn model tương xứng mức độ khó. Câu "1+1=?" không cần đi tới GPT-4 class; còn câu hỏi suy luận phức tạp sẽ được đẩy lên tier reasoning.
- Thuật toán scoring chạy <2ms, cục bộ (local), không phải call thêm network.
- 23 chiều: 13 tín hiệu keyword + 10 tín hiệu cấu trúc câu truy vấn.
- Mỗi tier có tối đa 5 fallback model nếu primary fail.
- Router miễn phí, không per-token markup — bạn chỉ trả hoá đơn của provider gốc.
Why it matters
Với indie hacker và team nhỏ chạy AI agent production, chi phí token là khoản đốt tiền lặng lẽ nhất. Một agent dùng flat-rate Claude Sonnet hay GPT-4 cho mọi tác vụ dễ vượt budget trong một tuần — đặc biệt khi phần lớn truy vấn thực tế là tasks đơn giản như phân loại, format hoặc trả lời ngắn. Manifest đưa ra cách tiếp cận đơn giản: đừng gọi Ferrari để đi chợ. Nó phân tách traffic theo độ khó và chỉ dùng model đắt khi thật sự cần.
Quan trọng hơn, vì toàn bộ scoring logic là open source, bạn có thể audit từng quyết định routing thay vì tin tưởng một black-box proxy proprietary. Điều này đặc biệt giá trị với các team phải trả lời câu hỏi "tại sao request X lại chạy trên model Y?" cho compliance hoặc incident review. Bạn đọc code, bạn biết. Không có surprise ở cuối tháng.
Thêm nữa, model landscape đang bùng nổ — DeepSeek, Qwen, MiniMax, xAI Grok liên tục ra model rẻ/ngon hơn. Một router tốt giúp bạn swap provider mà không phải rewrite code agent: chỉ cần add API key và Manifest tự cân đối tier. Lock-in giảm, thương lượng với provider dễ hơn.
Technical facts
| Property | Chi tiết |
|---|---|
| Scoring latency | <2ms / request (local) |
| Scoring dimensions | 23 (13 keyword + 10 structural) |
| Tiers | simple / standard / complex / reasoning |
| Fallback | Tối đa 5 model / tier |
| Model coverage | 300–600+ model qua OpenAI, Anthropic, Gemini, DeepSeek, xAI, Mistral, Qwen, MiniMax, custom OpenAI-compatible |
| Cost savings (claim) | Lên tới 70% |
| License | MIT |
| Install self-host | 1 lệnh Docker, boot ~30s tại localhost:3001 |
Comparison vs OpenRouter
| Aspect | Manifest | OpenRouter |
|---|---|---|
| Open source | Có (MIT) | Không |
| Self-host | Có — Docker | Không |
| Privacy | Metadata-only / fully local | Proxy full request |
| Routing transparency | 23-dim scoring công khai | Black box |
| Router fee | $0 | Per-token markup |
So với các router kiểu NVIDIA llm-router hay vLLM Semantic Router, Manifest định vị rõ vào segment personal / indie-agent: plug-and-play Docker + dashboard + budget alert, không đòi hạ tầng Kubernetes phức tạp.
Use cases
- Indie dev chạy agent cá nhân (Hermes, LangChain, OpenClaw, custom) cần cắt hoá đơn token mà vẫn giữ chất lượng output cho các tác vụ khó.
- Team sản phẩm muốn set budget riêng cho từng agent (prod vs experimental) + email alert khi chạm ngưỡng, tránh surprise bill.
- Workload privacy-sensitive: self-host để prompt không rời máy bạn — chỉ metadata (model, token count, latency) được log trong PostgreSQL cục bộ.
- Multi-provider setup: expose 1 endpoint OpenAI-compatible duy nhất cho toàn bộ SDK của team, đỡ maintain nhiều client riêng lẻ.
- A/B test models: kết nối nhiều provider cùng tier rồi dùng fallback / weight routing để đo xem model nào vừa rẻ vừa tốt cho workload thực tế của bạn.
Flow điển hình: agent gọi manifest/auto → scorer đánh giá độ khó query → chọn tier → forward đến model rẻ nhất trong tier (ví dụ Gemini Flash cho simple, Claude Sonnet cho complex) → ghi log token + cost vào dashboard. Toàn bộ mất thêm chưa đến 2ms so với call thẳng.
Limitations & pricing
Pricing: Manifest miễn phí — cả cloud lẫn self-host đều không charge routing fee. Bạn chỉ trả hoá đơn LLM provider.
- Con số 70% saving hiện chưa có benchmark độc lập của bên thứ ba kiểm chứng.
- Chuyển mode cloud ↔ local không tự migrate dữ liệu giữa hai database.
- Local mode cần SMTP ngoài (Mailgun / Resend / SendGrid) để gửi email alert.
- Độ chính xác phân loại tier chưa có metric công bố chính thức.
What's next
Manifest đang hoạt động tại repo mnfst/manifest với Docker install, CI, cộng đồng Discord. Các hướng cần theo dõi tiếp: benchmark công khai cho con số 70%, thêm native plugin cho các agent framework phổ biến, và khả năng migrate data giữa local ↔ cloud. Nếu bạn đang đốt token cho agent production, đây là dự án đáng thử cuối tuần.
Nguồn: manifest.build, GitHub mnfst/manifest, Manifest docs, Roundtable announcement.

