hermes-local-rig-accounting: chấm dứt huyền thoại "chạy LLM local là miễn phí"

TL;DR

hermes-local-rig-accounting là plugin mới cho Hermes Agent của Nous Research, ra mắt ngày 23/04/2026 bởi GumbyEnder và được Shane Robinett (cộng đồng Hermes) lan toả. Nhiệm vụ duy nhất: tính chi phí thật mỗi token khi bạn chạy LLM local — gồm khấu hao GPU và điện năng — rồi in song song với giá cloud để bạn route traffic bằng unit economics thay vì cảm tính "local là free".

rig-summary dashboard hiển thị toàn bộ kinh tế của rig local trong Hermes Agent

Có gì mới

Cài 1 dòng vào Hermes Agent (yêu cầu v0.11.0+ ra ngày 23/04/2026):

hermes plugins install GumbyEnder/hermes-local-rig-accounting

Plugin đăng ký 5 LLM tools — rig_cost, rig_summary, rig_benchmark, rig_rates, rig_submit — và 3 slash command trong session: /rig-benchmark, /rig-summary, /rig-submit. Cấu hình đặt trong config.yaml với các khoá cốt lõi:

hardware_cost_usd — tổng tiền đầu tư rig
gpu_only_cost_usd — phần khấu hao chỉ tính riêng GPU
lifespan_years — vòng đời dự kiến
avg_power_watts — công suất trung bình lúc inference
electricity_rate_per_kwh — giá điện địa phương (đặt auto để plugin tự lookup theo vùng từ power_rates.yaml)

Hỗ trợ multi-rig: khai báo list rigs: với hostname:, Hermes tự match profile theo máy đang chạy.

Tại sao quan trọng

Mặc định ai cũng nghĩ "chạy Ollama trên GPU nhà mình thì free". Sai. Mỗi token cost ba thứ: điện, khấu hao phần cứng, và opportunity cost. Khi bạn debate "có nên mua RTX 4090 hay tiếp tục trả OpenRouter", debate đó cần một con số $/M tokens cụ thể, không phải estimation kiểu napkin-math. Plugin này biến cuộc debate thành ledger entry mỗi session — đặc biệt giá trị cho indie hacker và team đang cân local-vs-cloud routing.

Cộng thêm leaderboard cộng đồng tự động cập nhật trong LEADERBOARD.md: bạn submit benchmark, repo auto-merge, mọi người thấy rig nào bao nhiêu TPS / $ trên cùng một thước đo. Một loại "Geekbench cho local LLM" nhưng kèm chi phí thật.

Số liệu kỹ thuật

Plugin dùng cost model có thể audit, ba công thức gọn:

Component	Formula
Depreciation	`gpu_only_cost / (lifespan_years × 8766)`
Energy	`(avg_power_watts / 1000) × electricity_rate_per_kwh`
Per-token (USD/M)	`total_hourly_cost / (TPS × 3600) × 1,000,000`

Worked example trong README:

Tham số	Giá trị
GPU cost	$1,500
Lifespan	3 năm (26,298 giờ)
Power	450W @ $0.12/kWh
Measured TPS	50
Depreciation	$0.057/hr
Energy	$0.054/hr
Total	$0.111/hr
Cost	$0.62 / M tokens

Output thực của /rig-benchmark trên một rig RTX 4080 + i9-13900KF + 31GB RAM cho thấy qwen3.5-9b đạt 75.99 TPS → $0.4059/M tokens, còn qwen3-coder-next chỉ 4.3 TPS → $7.2234/M tokens. Cùng phần cứng, model nặng làm cost/M token đắt gấp ~18×.

Output rig-benchmark hiển thị TPS và per-token cost cho qwen3.5-9b

So sánh: local vs cloud

Tham chiếu giá cloud tháng 04/2026 (output token, mỗi triệu):

Lựa chọn	$ / M output tokens
Local rig $1,500 GPU @ 50 TPS (worked example)	~$0.62
Local RTX 4080 + qwen3.5-9b @ 76 TPS	~$0.41
Cloud mid-tier (Gemini 3 Pro / Claude Haiku)	$1.25 – $5
Cloud frontier (GPT-5.5 / Claude Opus 4.7)	$10 – $15

Local rẻ hơn — sau khi bạn đã trả tiền GPU. Plugin chính là công cụ để định lượng "sau khi" đó cụ thể bao lâu / bao nhiêu token thì hoà vốn.

Use cases

Indie hacker đang cân "mua 4090 hay không" → đặt giá điện, ước lượng tokens/tháng, ra ngay payback period.
AI engineer route nội bộ giữa Ollama / vLLM và cloud → ledger thống nhất, không spreadsheet thủ công.
Homelab chạy nhiều máy → multi-rig hostname detection tự match profile.
Benchmarker muốn lên leaderboard công khai → /rig-submit tạo PR / issue, repo auto-update LEADERBOARD.md.

rig-submit gửi benchmark lên community leaderboard của plugin

Giới hạn & pricing

Chỉ track local providers: localhost, lmstudio, ollama, vllm. Cloud API call bị bỏ qua — đúng thiết kế.
Khấu hao là model, không phải đo thực — độ chính xác phụ thuộc input hardware_cost_usd, lifespan_years.
Không đo idle/standby power, chỉ tính "inference hours" qua session hooks on_session_start / on_session_finalize.
Project mới ra: 1 sao, 2 contributor (gồm cả bot), chưa có release page chính thức — nhưng đã đi qua v0.2.0 → v0.3.0 trong vài giờ đầu.
Pricing: free. MIT license. Mọi cost data ở local, không telemetry.

Bước tiếp theo

Roadmap suy ra từ commit pattern và file structure: thêm provider tracker, opportunity-cost modeling, idle-power tracking, và filter phong phú hơn cho leaderboard. Trong ngắn hạn, signal đáng theo dõi nhất là số rig submit lên leaderboard — đó sẽ là benchmark thật của "local LLM economics" mà cộng đồng cần. Nếu bạn đang chạy Ollama hay vLLM ở nhà, cài 1 dòng và submit benchmark đầu tiên xem rig của bạn xếp đâu.

Nguồn: GumbyEnder/hermes-local-rig-accounting, Hermes Agent Plugin docs, @ShaneRobinett trên X.

hermes-local-rig-accounting: chấm dứt huyền thoại "chạy LLM local là miễn phí"

TL;DR

Có gì mới

Tại sao quan trọng

Số liệu kỹ thuật

So sánh: local vs cloud

Use cases

Giới hạn & pricing

Bước tiếp theo

Bài liên quan

Hermes TUI HUD: keyboard-first operator console cho Hermes Agent

Hermes Video Agent: pipeline tự động "1 URL vào — clip dịch & đăng X ra", vừa open-source MIT

DeepSeek V4-Flash chạy uncompressed trên 4× RTX 6000: frontier model đầu tiên bạn có thể host tại nhà