TL;DR

Tháng 1/2026 Ollama v0.14 thêm Anthropic Messages API. OpenRouter từ lâu đã nói cùng một ngôn ngữ. Kết quả: Claude Code — CLI coding agent của Anthropic — giờ cắm thẳng vào backend miễn phí chỉ bằng vài biến môi trường. Ba stack đang hot ở tháng 4/2026: GLM 5.1 qua Ollama Cloud (coding-first, 94.6% Claude Opus 4.6), Gemma 4 offline trên laptop (Apache 2.0, không giới hạn token), và Elephant Alpha — mô hình 100B stealth đang free alpha trên OpenRouter với context 256K.

What's new

Trước đây muốn dùng model khác trong Claude Code phải qua proxy như claude-code-router. Giờ không cần nữa:

  • Ollama v0.14+ ship thẳng endpoint http://localhost:11434 tương thích Anthropic Messages API. Một lệnh ollama launch claude --model <id> là xong.
  • OpenRouter chỉ cần set ANTHROPIC_BASE_URL=https://openrouter.ai/api + key OR, blank ANTHROPIC_API_KEY. Claude Code tưởng mình đang nói với Anthropic.
  • Ba mô hình mới trong 3 tuần gần đây (GLM 5.1 ngày 27/3, Gemma 4 ngày 2/4, Elephant Alpha ngày 13/4) biến chuyện chạy Claude Code free từ hack thành workflow chính thống.

Why it matters

Claude Code là CLI coding agent mạnh nhưng token bill leo thang nhanh — một session refactor multi-file vài giờ có thể tốn $5–$20. Với developer indie, team nhỏ, hoặc ai chạy nhiều instance song song, chi phí đó là rào cản thật. Việc Anthropic để Claude Code nói được với Ollama và OpenRouter không phải là lỗ hổng — nó là chiến lược platform. Bạn giữ được UX quen thuộc của Claude Code (agent, tool use, file editing, MCP) nhưng đổi backend theo nhu cầu privacy, budget, context length.

Technical facts

Setup 1 — GLM 5.1 qua Ollama

ollama launch claude --model glm-5:cloud

Hoặc thủ công:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model glm-5:cloud

GLM 5.1 do Zhipu AI (z.ai) release ngày 27/3/2026, open weights, train hoàn toàn trên chip Huawei. Build cho coding + agent scenario. Benchmark: 94.6% performance của Claude Opus 4.6 trên coding tasks.

Setup 2 — Gemma 4 offline trên laptop

ollama pull gemma4:26b
ollama launch claude --model gemma4:26b

Google DeepMind release ngày 2/4/2026, Apache 2.0. Bốn kích thước:

VariantParamsActiveContextDùng cho
E2B2B2B128Kđiện thoại
E4B4B4B128Kedge device
26B MoE26B3.8B256KGPU consumer
31B Dense31B31B256Kworkstation

31B hit 80% trên LiveCodeBench v6. Multimodal (text+image in), native function calling. Offline = không token limit, không data leak.

Setup 3 — Elephant Alpha qua OpenRouter

export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_AUTH_TOKEN=<OPENROUTER_KEY>
export ANTHROPIC_API_KEY=""
export ANTHROPIC_DEFAULT_SONNET_MODEL=openrouter/elephant-alpha
claude

Elephant Alpha release ngày 13/4/2026, 100B params, context 256K, output tối đa 32K tokens. Lab đứng sau vẫn giấu tên ("stealth release from a prominent open model lab"). Support prompt caching, function calling, structured output. Free trong giai đoạn alpha — $0 per million tokens.

Comparison

SetupChạy ở đâuChi phíPrivacyĐiểm mạnh
GLM 5.1 / Ollama Cloudcloud Zhipufree tier / near-freelog có thể xảy raagentic coding, tool use
Gemma 4 localmáy của bạn$0 (chỉ phần cứng)hoàn toàn offlineprivate, không token limit
Elephant Alpha / OpenRouterOpenRouter → stealth lab$0 trong alphaprompt bị logcontext 256K, prototype nhanh

So với Claude Sonnet 4.6 paid: free stack đạt 85–95% chất lượng cho feature greenfield, debug, giải thích code. Giảm rõ trên refactor multi-file phức tạp và task reasoning-heavy.

Use cases

  • Indie dev tiết kiệm: trỏ Claude Code sang OpenRouter free tier, giữ nguyên UX.
  • Team privacy-sensitive: Gemma 4 31B trên workstation, không rò rỉ code, không rate limit.
  • Agentic workflow: GLM 5.1 build cho coding agent, tool use nhiều bước ổn định.
  • Long-context prototyping: Elephant Alpha 256K để nuốt nguyên repo, iterate nhanh.
  • Model swap: dùng /model hoặc restart với --model khác để A/B giữa backend ngay trong session.

Limitations & pricing

  • GLM 5.1: Ollama Cloud có quota, heavy use cần Zhipu API key. Tiếng Anh sắc thái yếu hơn Claude.
  • Gemma 4 31B: cần ~24GB VRAM hoặc Apple Silicon 32GB+ RAM. 26B MoE chạy được trên GPU 16GB. E2B/E4B đánh đổi chất lượng lấy portability.
  • Elephant Alpha: prompt bị log — đừng gửi code proprietary. "Alpha" nghĩa là không ổn định, không dùng production. Free period sẽ kết thúc.
  • OpenRouter free models: thường 20 req/phút, 200/ngày. Elephant Alpha cũng không phải ngoại lệ trong alpha.
  • Context window: Claude Code khuyến cáo tối thiểu 64K — một số model nhỏ (Gemma 4 E2B/E4B) vừa đủ, model lớn (GLM 5.1, Gemma 4 26B/31B, Elephant Alpha) dư thừa.

What's next

Elephant Alpha sẽ graduation sang tier trả phí (ngày chưa công bố). Zhipu tiếp tục nhịp độ release open-weights GLM 5.x trên Huawei chip. Gemma 4 đã hé lộ variant multimodal. Claude Code Router vẫn là lựa chọn khi cần routing phức tạp (nhiều model cho nhiều task type) — nhưng với 3 setup ở trên, proxy đã không còn bắt buộc.

Nguồn: Ollama docs, OpenRouter docs, Google blog — Gemma 4, Datanorth — Elephant Alpha, WaveSpeed — GLM 5.1 benchmarks.