TL;DR
hermes-local-rig-accounting là plugin mới cho Hermes Agent của Nous Research, ra mắt ngày 23/04/2026 bởi GumbyEnder và được Shane Robinett (cộng đồng Hermes) lan toả. Nhiệm vụ duy nhất: tính chi phí thật mỗi token khi bạn chạy LLM local — gồm khấu hao GPU và điện năng — rồi in song song với giá cloud để bạn route traffic bằng unit economics thay vì cảm tính "local là free".

Có gì mới
Cài 1 dòng vào Hermes Agent (yêu cầu v0.11.0+ ra ngày 23/04/2026):
hermes plugins install GumbyEnder/hermes-local-rig-accountingPlugin đăng ký 5 LLM tools — rig_cost, rig_summary, rig_benchmark, rig_rates, rig_submit — và 3 slash command trong session: /rig-benchmark, /rig-summary, /rig-submit. Cấu hình đặt trong config.yaml với các khoá cốt lõi:
hardware_cost_usd— tổng tiền đầu tư riggpu_only_cost_usd— phần khấu hao chỉ tính riêng GPUlifespan_years— vòng đời dự kiếnavg_power_watts— công suất trung bình lúc inferenceelectricity_rate_per_kwh— giá điện địa phương (đặtautođể plugin tự lookup theo vùng từpower_rates.yaml)
Hỗ trợ multi-rig: khai báo list rigs: với hostname:, Hermes tự match profile theo máy đang chạy.
Tại sao quan trọng
Mặc định ai cũng nghĩ "chạy Ollama trên GPU nhà mình thì free". Sai. Mỗi token cost ba thứ: điện, khấu hao phần cứng, và opportunity cost. Khi bạn debate "có nên mua RTX 4090 hay tiếp tục trả OpenRouter", debate đó cần một con số $/M tokens cụ thể, không phải estimation kiểu napkin-math. Plugin này biến cuộc debate thành ledger entry mỗi session — đặc biệt giá trị cho indie hacker và team đang cân local-vs-cloud routing.
Cộng thêm leaderboard cộng đồng tự động cập nhật trong LEADERBOARD.md: bạn submit benchmark, repo auto-merge, mọi người thấy rig nào bao nhiêu TPS / $ trên cùng một thước đo. Một loại "Geekbench cho local LLM" nhưng kèm chi phí thật.
Số liệu kỹ thuật
Plugin dùng cost model có thể audit, ba công thức gọn:
| Component | Formula |
|---|---|
| Depreciation | gpu_only_cost / (lifespan_years × 8766) |
| Energy | (avg_power_watts / 1000) × electricity_rate_per_kwh |
| Per-token (USD/M) | total_hourly_cost / (TPS × 3600) × 1,000,000 |
Worked example trong README:
| Tham số | Giá trị |
|---|---|
| GPU cost | $1,500 |
| Lifespan | 3 năm (26,298 giờ) |
| Power | 450W @ $0.12/kWh |
| Measured TPS | 50 |
| Depreciation | $0.057/hr |
| Energy | $0.054/hr |
| Total | $0.111/hr |
| Cost | $0.62 / M tokens |
Output thực của /rig-benchmark trên một rig RTX 4080 + i9-13900KF + 31GB RAM cho thấy qwen3.5-9b đạt 75.99 TPS → $0.4059/M tokens, còn qwen3-coder-next chỉ 4.3 TPS → $7.2234/M tokens. Cùng phần cứng, model nặng làm cost/M token đắt gấp ~18×.

So sánh: local vs cloud
Tham chiếu giá cloud tháng 04/2026 (output token, mỗi triệu):
| Lựa chọn | $ / M output tokens |
|---|---|
| Local rig $1,500 GPU @ 50 TPS (worked example) | ~$0.62 |
| Local RTX 4080 + qwen3.5-9b @ 76 TPS | ~$0.41 |
| Cloud mid-tier (Gemini 3 Pro / Claude Haiku) | $1.25 – $5 |
| Cloud frontier (GPT-5.5 / Claude Opus 4.7) | $10 – $15 |
Local rẻ hơn — sau khi bạn đã trả tiền GPU. Plugin chính là công cụ để định lượng "sau khi" đó cụ thể bao lâu / bao nhiêu token thì hoà vốn.
Use cases
- Indie hacker đang cân "mua 4090 hay không" → đặt giá điện, ước lượng tokens/tháng, ra ngay payback period.
- AI engineer route nội bộ giữa Ollama / vLLM và cloud → ledger thống nhất, không spreadsheet thủ công.
- Homelab chạy nhiều máy → multi-rig hostname detection tự match profile.
- Benchmarker muốn lên leaderboard công khai →
/rig-submittạo PR / issue, repo auto-updateLEADERBOARD.md.

Giới hạn & pricing
- Chỉ track local providers: localhost, lmstudio, ollama, vllm. Cloud API call bị bỏ qua — đúng thiết kế.
- Khấu hao là model, không phải đo thực — độ chính xác phụ thuộc input
hardware_cost_usd,lifespan_years. - Không đo idle/standby power, chỉ tính "inference hours" qua session hooks
on_session_start/on_session_finalize. - Project mới ra: 1 sao, 2 contributor (gồm cả bot), chưa có release page chính thức — nhưng đã đi qua v0.2.0 → v0.3.0 trong vài giờ đầu.
- Pricing: free. MIT license. Mọi cost data ở local, không telemetry.
Bước tiếp theo
Roadmap suy ra từ commit pattern và file structure: thêm provider tracker, opportunity-cost modeling, idle-power tracking, và filter phong phú hơn cho leaderboard. Trong ngắn hạn, signal đáng theo dõi nhất là số rig submit lên leaderboard — đó sẽ là benchmark thật của "local LLM economics" mà cộng đồng cần. Nếu bạn đang chạy Ollama hay vLLM ở nhà, cài 1 dòng và submit benchmark đầu tiên xem rig của bạn xếp đâu.
Nguồn: GumbyEnder/hermes-local-rig-accounting, Hermes Agent Plugin docs, @ShaneRobinett trên X.
