Claude Code chạy miễn phí: 3 setup GLM 5.1, Gemma 4 và Elephant Alpha

TL;DR

Tháng 1/2026 Ollama v0.14 thêm Anthropic Messages API. OpenRouter từ lâu đã nói cùng một ngôn ngữ. Kết quả: Claude Code — CLI coding agent của Anthropic — giờ cắm thẳng vào backend miễn phí chỉ bằng vài biến môi trường. Ba stack đang hot ở tháng 4/2026: GLM 5.1 qua Ollama Cloud (coding-first, 94.6% Claude Opus 4.6), Gemma 4 offline trên laptop (Apache 2.0, không giới hạn token), và Elephant Alpha — mô hình 100B stealth đang free alpha trên OpenRouter với context 256K.

What's new

Trước đây muốn dùng model khác trong Claude Code phải qua proxy như claude-code-router. Giờ không cần nữa:

Ollama v0.14+ ship thẳng endpoint http://localhost:11434 tương thích Anthropic Messages API. Một lệnh ollama launch claude --model <id> là xong.
OpenRouter chỉ cần set ANTHROPIC_BASE_URL=https://openrouter.ai/api + key OR, blank ANTHROPIC_API_KEY. Claude Code tưởng mình đang nói với Anthropic.
Ba mô hình mới trong 3 tuần gần đây (GLM 5.1 ngày 27/3, Gemma 4 ngày 2/4, Elephant Alpha ngày 13/4) biến chuyện chạy Claude Code free từ hack thành workflow chính thống.

Why it matters

Claude Code là CLI coding agent mạnh nhưng token bill leo thang nhanh — một session refactor multi-file vài giờ có thể tốn $5–$20. Với developer indie, team nhỏ, hoặc ai chạy nhiều instance song song, chi phí đó là rào cản thật. Việc Anthropic để Claude Code nói được với Ollama và OpenRouter không phải là lỗ hổng — nó là chiến lược platform. Bạn giữ được UX quen thuộc của Claude Code (agent, tool use, file editing, MCP) nhưng đổi backend theo nhu cầu privacy, budget, context length.

Technical facts

Setup 1 — GLM 5.1 qua Ollama

ollama launch claude --model glm-5:cloud

Hoặc thủ công:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model glm-5:cloud

GLM 5.1 do Zhipu AI (z.ai) release ngày 27/3/2026, open weights, train hoàn toàn trên chip Huawei. Build cho coding + agent scenario. Benchmark: 94.6% performance của Claude Opus 4.6 trên coding tasks.

Setup 2 — Gemma 4 offline trên laptop

ollama pull gemma4:26b
ollama launch claude --model gemma4:26b

Google DeepMind release ngày 2/4/2026, Apache 2.0. Bốn kích thước:

Variant	Params	Active	Context	Dùng cho
E2B	2B	2B	128K	điện thoại
E4B	4B	4B	128K	edge device
26B MoE	26B	3.8B	256K	GPU consumer
31B Dense	31B	31B	256K	workstation

31B hit 80% trên LiveCodeBench v6. Multimodal (text+image in), native function calling. Offline = không token limit, không data leak.

Setup 3 — Elephant Alpha qua OpenRouter

export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_AUTH_TOKEN=<OPENROUTER_KEY>
export ANTHROPIC_API_KEY=""
export ANTHROPIC_DEFAULT_SONNET_MODEL=openrouter/elephant-alpha
claude

Elephant Alpha release ngày 13/4/2026, 100B params, context 256K, output tối đa 32K tokens. Lab đứng sau vẫn giấu tên ("stealth release from a prominent open model lab"). Support prompt caching, function calling, structured output. Free trong giai đoạn alpha — $0 per million tokens.

Comparison

Setup	Chạy ở đâu	Chi phí	Privacy	Điểm mạnh
GLM 5.1 / Ollama Cloud	cloud Zhipu	free tier / near-free	log có thể xảy ra	agentic coding, tool use
Gemma 4 local	máy của bạn	$0 (chỉ phần cứng)	hoàn toàn offline	private, không token limit
Elephant Alpha / OpenRouter	OpenRouter → stealth lab	$0 trong alpha	prompt bị log	context 256K, prototype nhanh

So với Claude Sonnet 4.6 paid: free stack đạt 85–95% chất lượng cho feature greenfield, debug, giải thích code. Giảm rõ trên refactor multi-file phức tạp và task reasoning-heavy.

Use cases

Indie dev tiết kiệm: trỏ Claude Code sang OpenRouter free tier, giữ nguyên UX.
Team privacy-sensitive: Gemma 4 31B trên workstation, không rò rỉ code, không rate limit.
Agentic workflow: GLM 5.1 build cho coding agent, tool use nhiều bước ổn định.
Long-context prototyping: Elephant Alpha 256K để nuốt nguyên repo, iterate nhanh.
Model swap: dùng /model hoặc restart với --model khác để A/B giữa backend ngay trong session.

Limitations & pricing

GLM 5.1: Ollama Cloud có quota, heavy use cần Zhipu API key. Tiếng Anh sắc thái yếu hơn Claude.
Gemma 4 31B: cần ~24GB VRAM hoặc Apple Silicon 32GB+ RAM. 26B MoE chạy được trên GPU 16GB. E2B/E4B đánh đổi chất lượng lấy portability.
Elephant Alpha: prompt bị log — đừng gửi code proprietary. "Alpha" nghĩa là không ổn định, không dùng production. Free period sẽ kết thúc.
OpenRouter free models: thường 20 req/phút, 200/ngày. Elephant Alpha cũng không phải ngoại lệ trong alpha.
Context window: Claude Code khuyến cáo tối thiểu 64K — một số model nhỏ (Gemma 4 E2B/E4B) vừa đủ, model lớn (GLM 5.1, Gemma 4 26B/31B, Elephant Alpha) dư thừa.

What's next

Elephant Alpha sẽ graduation sang tier trả phí (ngày chưa công bố). Zhipu tiếp tục nhịp độ release open-weights GLM 5.x trên Huawei chip. Gemma 4 đã hé lộ variant multimodal. Claude Code Router vẫn là lựa chọn khi cần routing phức tạp (nhiều model cho nhiều task type) — nhưng với 3 setup ở trên, proxy đã không còn bắt buộc.

Nguồn: Ollama docs, OpenRouter docs, Google blog — Gemma 4, Datanorth — Elephant Alpha, WaveSpeed — GLM 5.1 benchmarks.

Claude Code chạy miễn phí: 3 setup GLM 5.1, Gemma 4 và Elephant Alpha

TL;DR

What's new

Why it matters

Technical facts

Setup 1 — GLM 5.1 qua Ollama

Setup 2 — Gemma 4 offline trên laptop

Setup 3 — Elephant Alpha qua OpenRouter

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Orca IDE v1.3.18: Bình luận trực tiếp lên diff, gửi cả review cho AI agent trong một click

Free CLI Agent: Pi + Ollama + Gemma 4 + Parallel Search MCP — $0, No API Keys

SmallClaw: AI agent framework local-first cho small models, chạy ngon trên laptop 8GB RAM

Claude Code đỡ rối với plugin chính chủ Anthropic: claude-code-setup