Chạy Claude Code Miễn Phí với Ollama, Gemma 4 và OpenRouter

TL;DR

Bạn có thể chạy Claude Code - công cụ coding agent CLI của Anthropic - mà không trả một đồng API nào bằng cách ghi đè một biến môi trường duy nhất: ANTHROPIC_BASE_URL. Trỏ nó sang OpenRouter (39 model miễn phí) hoặc Ollama (chạy local 100%) và toàn bộ CLI hoạt động bình thường. Đây là hack cộng đồng đang nổ trên r/ClaudeCode với 4.200+ contributor hàng tuần.

Cơ chế hoạt động

Claude Code CLI giao tiếp với backend qua Anthropic Messages API. Khi bạn override ANTHROPIC_BASE_URL, toàn bộ request - file reading, shell commands, multi-step reasoning - đi sang endpoint bạn chỉ định thay vì server Anthropic.

Có hai route chính:

OpenRouter: nói native Anthropic message format, không cần proxy. Set hai biến là xong.
Ollama: dùng OpenAI-compatible format, cần translation layer (LiteLLM hoặc Claude Code Router) làm cầu nối.

Setup OpenRouter (nhanh nhất):

export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_API_KEY=sk-or-v1-YOUR_KEY
# Chạy bình thường
claude --model meta-llama/llama-3.3-70b-instruct:free

Setup Ollama (100% local):

# Bước 1: Pull model
ollama pull gemma4:27b

# Bước 2: Chạy LiteLLM proxy
litellm --model ollama/gemma4:27b --port 4000

# Bước 3: Set env
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_API_KEY=ollama
claude

Con số thực tế

Claude Opus 4 tính phí $15/triệu input token và $75/triệu output token. Một ngày code nặng tiêu 500K-2M token, tương đương $10-$30/ngày. Với OpenRouter free tier:

Model	Chi phí/1M tokens	So với Opus 4
OpenRouter free (Llama 3.3 70B)	$0	-100%
DeepSeek R1	$0.55	-96%
DeepSeek V3	$0.15	-99%
Qwen2.5-Coder 32B	$0.30	-98%
Gemma 3 27B	$0.07	-99.5%

Giới hạn free tier: 20 request/phút, 200 request/ngày mỗi model. Trick để bypass: rotate giữa các model vì giới hạn tính per-model, không per-account. Nạp thêm $5 credit là hết lo.

Gemma 4 cho local inference

Google's Gemma 4 là lựa chọn nổi bật nhất cho Ollama vì context window lớn - yếu tố sống còn khi làm việc với codebase lớn:

Model	Params hiệu dụng	Context	RAM cần
Gemma 4 E2B	2.3B	128K	8GB VRAM
Gemma 4 E4B	4.5B	128K	8GB VRAM
Gemma 4 26B-A4B (MoE)	3.8B active	256K	24GB VRAM
Gemma 4 31B	30.7B	256K	24GB VRAM

Ollama chính thức khuyến nghị tối thiểu 64K context để Claude Code hoạt động ổn. Model 8K-16K sẽ mất context khi làm task span nhiều file. Apple Silicon có lợi thế rõ ràng - MacBook M3 Max chạy model 14B đạt 30-60 tokens/giây nhờ Metal acceleration và unified memory.

Ai nên dùng ngay

Freelancer/contractor làm dự án NDA: Ollama local = code 100% không rời máy. Không cần lo về data exposure với client code.

Team dùng Claude Code ở quy mô lớn: Test generation, code review tự động tiêu token liên tục. Routing task routine (viết test, comment, refactor) sang model free, chỉ dùng Opus cho architecture decision - tiết kiệm 60-80% mà không mất quality đáng kể. Một session 50 exchange thông thường tốn $7-$15 trên Anthropic, bằng $0 với OpenRouter free tier.

Workflow đề xuất bằng Claude Code Router:

background: Gemma 3 27B (commit summary, standup prep)
default: DeepSeek V3 (coding task thông thường)
think: DeepSeek R1 (debug phức tạp, design decision)
long-context: Llama 3.1 405B (toàn repo lớn)

Giới hạn cần biết

Đây không phải silver bullet. Những điểm quan trọng cần nắm:

Tool calling: Claude Code phụ thuộc nặng vào tool use cho file edit, git commands. Nhiều model free/open không hỗ trợ đáng tin cậy. Model đã confirm hoạt động: DeepSeek R1, Llama 3.1/3.3 70B, Qwen2.5-Coder 32B.
Task phức tạp: Multi-file reasoning, kiến trúc hệ thống, debug lỗi tinh vi - vẫn cần frontier model. Gemma 4 31B local không thể fix một Python app broken sau nhiều lần thử trong test thực tế.
Extended thinking & prompt caching: Features riêng của Anthropic, sẽ fail silently với third-party models.
Chính sách Anthropic (4/4/2026): Pro/Max subscriber bị block khỏi hầu hết third-party agent framework qua subscription. Cần dùng API key riêng để route sang model khác.

Tổng kết

Với task routine - viết test, refactor, comment, giải thích code - approach này hoạt động tốt và tiết kiệm đáng kể. Với project phức tạp, local model còn xa mới sánh được Opus. Chiến lược khôn ngoan nhất hiện tại là routing thông minh: dùng free/local cho 80% công việc thường ngày, giữ Opus cho 20% task đòi hỏi trí tuệ thực sự. Ecosystem này hoàn toàn là cộng đồng tự xây - Anthropic chưa có roadmap hỗ trợ chính thức cho local model trong Claude Code - nhưng với tốc độ phát triển hiện tại (claude-code-router vượt 20.900 GitHub stars), khả năng cao sẽ ngày càng ổn định hơn.

Nguồn: OpenRouter Docs, Ollama Official, MindStudio.