Manifest: Router mã nguồn mở chọn đúng LLM trong dưới 2ms, tiết kiệm tới 70% chi phí AI agent

TL;DR

Manifest là một LLM router mã nguồn mở (MIT) dành cho personal AI agents. Nó phân loại mỗi request trong dưới 2ms bằng thuật toán 23 chiều, chọn tier (simple / standard / complex / reasoning) rồi route tới model rẻ nhất đủ sức xử lý trong các provider bạn đã kết nối. Team công bố mức giảm chi phí lên đến 70%, hỗ trợ 300+ model, có cả bản cloud và self-host Docker.

What's new

Roundtable vừa giới thiệu Manifest như một layer "middleman" gọn nhẹ đứng giữa agent của bạn và các nhà cung cấp LLM. Điểm khác biệt cốt lõi: thay vì để agent gọi thẳng một model đắt tiền cho mọi truy vấn, Manifest chấm điểm từng request rồi chọn model tương xứng mức độ khó. Câu "1+1=?" không cần đi tới GPT-4 class; còn câu hỏi suy luận phức tạp sẽ được đẩy lên tier reasoning.

Thuật toán scoring chạy <2ms, cục bộ (local), không phải call thêm network.
23 chiều: 13 tín hiệu keyword + 10 tín hiệu cấu trúc câu truy vấn.
Mỗi tier có tối đa 5 fallback model nếu primary fail.
Router miễn phí, không per-token markup — bạn chỉ trả hoá đơn của provider gốc.

Why it matters

Với indie hacker và team nhỏ chạy AI agent production, chi phí token là khoản đốt tiền lặng lẽ nhất. Một agent dùng flat-rate Claude Sonnet hay GPT-4 cho mọi tác vụ dễ vượt budget trong một tuần — đặc biệt khi phần lớn truy vấn thực tế là tasks đơn giản như phân loại, format hoặc trả lời ngắn. Manifest đưa ra cách tiếp cận đơn giản: đừng gọi Ferrari để đi chợ. Nó phân tách traffic theo độ khó và chỉ dùng model đắt khi thật sự cần.

Quan trọng hơn, vì toàn bộ scoring logic là open source, bạn có thể audit từng quyết định routing thay vì tin tưởng một black-box proxy proprietary. Điều này đặc biệt giá trị với các team phải trả lời câu hỏi "tại sao request X lại chạy trên model Y?" cho compliance hoặc incident review. Bạn đọc code, bạn biết. Không có surprise ở cuối tháng.

Thêm nữa, model landscape đang bùng nổ — DeepSeek, Qwen, MiniMax, xAI Grok liên tục ra model rẻ/ngon hơn. Một router tốt giúp bạn swap provider mà không phải rewrite code agent: chỉ cần add API key và Manifest tự cân đối tier. Lock-in giảm, thương lượng với provider dễ hơn.

Technical facts

Property	Chi tiết
Scoring latency	<2ms / request (local)
Scoring dimensions	23 (13 keyword + 10 structural)
Tiers	simple / standard / complex / reasoning
Fallback	Tối đa 5 model / tier
Model coverage	300–600+ model qua OpenAI, Anthropic, Gemini, DeepSeek, xAI, Mistral, Qwen, MiniMax, custom OpenAI-compatible
Cost savings (claim)	Lên tới 70%
License	MIT
Install self-host	1 lệnh Docker, boot ~30s tại `localhost:3001`

Comparison vs OpenRouter

Aspect	Manifest	OpenRouter
Open source	Có (MIT)	Không
Self-host	Có — Docker	Không
Privacy	Metadata-only / fully local	Proxy full request
Routing transparency	23-dim scoring công khai	Black box
Router fee	$0	Per-token markup

So với các router kiểu NVIDIA llm-router hay vLLM Semantic Router, Manifest định vị rõ vào segment personal / indie-agent: plug-and-play Docker + dashboard + budget alert, không đòi hạ tầng Kubernetes phức tạp.

Use cases

Indie dev chạy agent cá nhân (Hermes, LangChain, OpenClaw, custom) cần cắt hoá đơn token mà vẫn giữ chất lượng output cho các tác vụ khó.
Team sản phẩm muốn set budget riêng cho từng agent (prod vs experimental) + email alert khi chạm ngưỡng, tránh surprise bill.
Workload privacy-sensitive: self-host để prompt không rời máy bạn — chỉ metadata (model, token count, latency) được log trong PostgreSQL cục bộ.
Multi-provider setup: expose 1 endpoint OpenAI-compatible duy nhất cho toàn bộ SDK của team, đỡ maintain nhiều client riêng lẻ.
A/B test models: kết nối nhiều provider cùng tier rồi dùng fallback / weight routing để đo xem model nào vừa rẻ vừa tốt cho workload thực tế của bạn.

Flow điển hình: agent gọi manifest/auto → scorer đánh giá độ khó query → chọn tier → forward đến model rẻ nhất trong tier (ví dụ Gemini Flash cho simple, Claude Sonnet cho complex) → ghi log token + cost vào dashboard. Toàn bộ mất thêm chưa đến 2ms so với call thẳng.

Limitations & pricing

Pricing: Manifest miễn phí — cả cloud lẫn self-host đều không charge routing fee. Bạn chỉ trả hoá đơn LLM provider.

Con số 70% saving hiện chưa có benchmark độc lập của bên thứ ba kiểm chứng.
Chuyển mode cloud ↔ local không tự migrate dữ liệu giữa hai database.
Local mode cần SMTP ngoài (Mailgun / Resend / SendGrid) để gửi email alert.
Độ chính xác phân loại tier chưa có metric công bố chính thức.

What's next

Manifest đang hoạt động tại repo mnfst/manifest với Docker install, CI, cộng đồng Discord. Các hướng cần theo dõi tiếp: benchmark công khai cho con số 70%, thêm native plugin cho các agent framework phổ biến, và khả năng migrate data giữa local ↔ cloud. Nếu bạn đang đốt token cho agent production, đây là dự án đáng thử cuối tuần.

Nguồn: manifest.build, GitHub mnfst/manifest, Manifest docs, Roundtable announcement.

Manifest: Router mã nguồn mở chọn đúng LLM trong dưới 2ms, tiết kiệm tới 70% chi phí AI agent

TL;DR

What's new

Why it matters

Technical facts

Comparison vs OpenRouter

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Sherlock: công cụ OSINT mã nguồn mở quét username trên 400+ mạng xã hội trong vài giây

AI Agent pops a root shell on Ubuntu 26.04 — on day one

SideImpactor: ký và cài app iOS ngay trong trình duyệt qua WebUSB, không cần Sideloadly

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release