TL;DR

Ollama vừa gắn Hermes Agent của Nous Research vào CLI của mình. Một lệnh ollama launch hermes là xong: tự cài Hermes nếu thiếu, tự chọn model (local Gemma 4 / Qwen 3.5, hoặc cloud GLM 5.1 / MiniMax M2.7), tự trỏ endpoint về http://127.0.0.1:11434/v1, tự pair Telegram/Discord/Slack. Skills cũ và memory xuyên session đều giữ nguyên — miễn phí cho tới khi bạn đụng cloud model.

Cái mới

Trước đây, để chạy Hermes trên Ollama bạn phải: cài Hermes riêng, bật wizard, chọn "Custom endpoint", gõ đúng URL 127.0.0.1:11434/v1, bỏ trống API key, rồi tự confirm model local. Giờ Ollama gom tất cả vào một command duy nhất và handle 4 bước dưới capô:

  1. Install — check Hermes trên máy, thiếu thì gọi Nous Research install script.
  2. Model — selector cho cả local lẫn cloud (Gemma 4, Qwen 3.6, GLM 5.1, MiniMax M2.7, Kimi K2.5).
  3. Onboarding — cấu hình provider Ollama, trỏ Hermes về http://127.0.0.1:11434/v1, set model primary.
  4. Gateway — optional: pair Telegram, Discord, Slack, WhatsApp, Signal hoặc Email, rồi mở chat ngay.

Windows cần WSL2 (wsl --install). Mac/Linux chạy native.

Tại sao đáng chú ý

Hermes Agent là AI agent tự-cải-thiện của Nous Research: tự tạo skill, cross-session memory, ship sẵn 70+ skills. Lấy mớ đó đặt sau một lệnh CLI đồng nghĩa với việc bất cứ ai biết gõ ollama pull đều có thể spin up một agent local private trong dưới 1 phút, gọi được từ điện thoại qua Telegram, không phải học config YAML, không phải paste URL.

Đó là điểm quan trọng nhất: rào cản "setup local agent" vốn là lý do đa số người bỏ cuộc sau 30 phút loay hoay — giờ biến mất.

Số liệu kỹ thuật

  • Endpoint: auto-wire tại http://127.0.0.1:11434/v1 (Ollama port 11434, API key để trống).
  • Benchmarks TAU2 agentic: Qwen 3.5 27B đạt 79% (community favorite local); Gemma 4 31B đạt 76.9%; GLM cloud > 99%.
  • Timeout tự điều chỉnh cho local provider: socket read raise từ 120s lên 1800s (30 phút) để cover prefill dài; stale-stream 180s và stale-non-stream 300s auto-disable.
  • Iteration budget mặc định: 90 turns. Hermes inject _budget_warning vào JSON tool result ở 70% (63/90) và 90% (81/90) — không phá cache prompt.
  • Yêu cầu RAM: 7B ≥ 8GB, 13B ≥ 16GB, 27B ≥ 32GB hoặc GPU, 70B cần A100/H100 ($40–80/tháng).
  • Apple Silicon: Metal GPU accel qua Ollama cho 50–80 tokens/s trên 7B — đủ cho interactive coding.

So với setup cũ và đối thủ

Tiêu chíSetup cũ (manual)ollama launch hermesOpenClaw + Ollama
Số bước thao tác5–7 bước1 lệnh3–5 bước + fork riêng
Endpoint wiringTayAutoTay
Model discoveryTayAutoTay
Gateway (Telegram/Discord)Setup riêngIncludedKhông có sẵn
Multi-agent profileKhôngCó (local + cloud song song)Không

Hermes dùng unified provider abstraction layer — local và cloud đều đi qua cùng một interface, nên chuyển qua lại không cần viết lại config.

Use cases thực tế

  • Indie hacker: route code nhạy cảm về local Qwen 3.5 27B, đẩy reasoning phức tạp lên cloud GLM 5.1 — cùng một file config.
  • Researcher / air-gapped: máy không có internet, Hermes vẫn chạy full: local inference qua Ollama, local embeddings cho memory search.
  • Telegram mobile assistant: pair bot với một profile, chat MiniMax M2.7 hoặc Qwen từ điện thoại bất cứ đâu; Group Chat Session Isolation cho mỗi thành viên group một session riêng.
  • Zero-token ops: quick commands như /status, /gpu, /disk, /update gõ trong Telegram sẽ chạy shell command thẳng trên host — không LLM call, không tốn token, trả kết quả tức thời.
  • Multi-agent trên cùng 1 máy: GLM 5.1 default + MiniMax M2.7 researcher + Qwen 3.5 27B coder chạy song song, mỗi profile có memory/skills/bot riêng, không cross-contamination.
  • GPU cluster riêng: vLLM + parallel subagent của Hermes biến box multi-GPU thành private AI API — 0 đồng per token.

Giới hạn & pricing

Free: self-host Hermes (MIT) + Ollama. Hardware là chi phí duy nhất. FlyHermes managed cloud: $29.50 tháng đầu, API cost included. VPS GPU cho 70B: $40–80/tháng.

Trade-off phải biết:

  • Model local ≈ GPT-3.5 class; cloud ≈ GPT-4 class.
  • Web browsing + tool use không ổn định trên model local 7B — cloud (Kimi, DeepSeek, Claude) reliable hơn.
  • Feature đặc thù provider (OpenAI code interpreter, Anthropic extended thinking) không transfer sang local.
  • Windows buộc phải dùng WSL2.

Tiếp theo là gì

Tháng 4/2026 Hermes đã ship multi-agent profiles và mở rộng gateway sang 16+ nền tảng (Telegram, Discord, Slack, Signal, WhatsApp, Matrix, Mattermost, Email, SMS, Home Assistant, DingTalk, Feishu, WeCom, WeiXin, BlueBubbles, QQBot). Với Ollama đã "nuốt" Hermes làm assistant mặc định, hướng đi rõ ràng là gạt nốt rào cản cuối cùng giữa người dùng cuối và một autonomous agent chạy hoàn toàn trên máy họ. Ai từng cho rằng AI agent local là trò của hacker hardcore nên thử lại — câu trả lời giờ gói gọn trong 3 chữ: ollama launch hermes.

Nguồn: docs.ollama.com, hermes-agent.ai, hermes-agent.nousresearch.com, sonusahani.com, @JulianGoldieSEO on X.