- Một biến môi trường duy nhất giúp Claude Code gọi sang Ollama hoặc OpenRouter thay vì Anthropic - tiết kiệm 80-99% chi phí API.
- OpenRouter cung cấp 39 model miễn phí gồm Llama 3.3 70B, DeepSeek R1, Gemma 3 27B.
- Ollama chạy hoàn toàn offline, code không rời máy - lý tưởng cho dự án NDA.
- Giới hạn thực: model cần tối thiểu 64K context window và hỗ trợ tool calling để Claude Code hoạt động ổn định.
TL;DR
Bạn có thể chạy Claude Code - công cụ coding agent CLI của Anthropic - mà không trả một đồng API nào bằng cách ghi đè một biến môi trường duy nhất: ANTHROPIC_BASE_URL. Trỏ nó sang OpenRouter (39 model miễn phí) hoặc Ollama (chạy local 100%) và toàn bộ CLI hoạt động bình thường. Đây là hack cộng đồng đang nổ trên r/ClaudeCode với 4.200+ contributor hàng tuần.
Cơ chế hoạt động
Claude Code CLI giao tiếp với backend qua Anthropic Messages API. Khi bạn override ANTHROPIC_BASE_URL, toàn bộ request - file reading, shell commands, multi-step reasoning - đi sang endpoint bạn chỉ định thay vì server Anthropic.
Có hai route chính:
- OpenRouter: nói native Anthropic message format, không cần proxy. Set hai biến là xong.
- Ollama: dùng OpenAI-compatible format, cần translation layer (LiteLLM hoặc Claude Code Router) làm cầu nối.
Setup OpenRouter (nhanh nhất):
export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_API_KEY=sk-or-v1-YOUR_KEY
# Chạy bình thường
claude --model meta-llama/llama-3.3-70b-instruct:free
Setup Ollama (100% local):
# Bước 1: Pull model
ollama pull gemma4:27b
# Bước 2: Chạy LiteLLM proxy
litellm --model ollama/gemma4:27b --port 4000
# Bước 3: Set env
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_API_KEY=ollama
claude
Con số thực tế
Claude Opus 4 tính phí $15/triệu input token và $75/triệu output token. Một ngày code nặng tiêu 500K-2M token, tương đương $10-$30/ngày. Với OpenRouter free tier:
| Model | Chi phí/1M tokens | So với Opus 4 |
|---|---|---|
| OpenRouter free (Llama 3.3 70B) | $0 | -100% |
| DeepSeek R1 | $0.55 | -96% |
| DeepSeek V3 | $0.15 | -99% |
| Qwen2.5-Coder 32B | $0.30 | -98% |
| Gemma 3 27B | $0.07 | -99.5% |
Giới hạn free tier: 20 request/phút, 200 request/ngày mỗi model. Trick để bypass: rotate giữa các model vì giới hạn tính per-model, không per-account. Nạp thêm $5 credit là hết lo.
Gemma 4 cho local inference
Google's Gemma 4 là lựa chọn nổi bật nhất cho Ollama vì context window lớn - yếu tố sống còn khi làm việc với codebase lớn:
| Model | Params hiệu dụng | Context | RAM cần |
|---|---|---|---|
| Gemma 4 E2B | 2.3B | 128K | 8GB VRAM |
| Gemma 4 E4B | 4.5B | 128K | 8GB VRAM |
| Gemma 4 26B-A4B (MoE) | 3.8B active | 256K | 24GB VRAM |
| Gemma 4 31B | 30.7B | 256K | 24GB VRAM |
Ollama chính thức khuyến nghị tối thiểu 64K context để Claude Code hoạt động ổn. Model 8K-16K sẽ mất context khi làm task span nhiều file. Apple Silicon có lợi thế rõ ràng - MacBook M3 Max chạy model 14B đạt 30-60 tokens/giây nhờ Metal acceleration và unified memory.
Ai nên dùng ngay
Freelancer/contractor làm dự án NDA: Ollama local = code 100% không rời máy. Không cần lo về data exposure với client code.
Team dùng Claude Code ở quy mô lớn: Test generation, code review tự động tiêu token liên tục. Routing task routine (viết test, comment, refactor) sang model free, chỉ dùng Opus cho architecture decision - tiết kiệm 60-80% mà không mất quality đáng kể. Một session 50 exchange thông thường tốn $7-$15 trên Anthropic, bằng $0 với OpenRouter free tier.
Workflow đề xuất bằng Claude Code Router:
- background: Gemma 3 27B (commit summary, standup prep)
- default: DeepSeek V3 (coding task thông thường)
- think: DeepSeek R1 (debug phức tạp, design decision)
- long-context: Llama 3.1 405B (toàn repo lớn)
Giới hạn cần biết
Đây không phải silver bullet. Những điểm quan trọng cần nắm:
- Tool calling: Claude Code phụ thuộc nặng vào tool use cho file edit, git commands. Nhiều model free/open không hỗ trợ đáng tin cậy. Model đã confirm hoạt động: DeepSeek R1, Llama 3.1/3.3 70B, Qwen2.5-Coder 32B.
- Task phức tạp: Multi-file reasoning, kiến trúc hệ thống, debug lỗi tinh vi - vẫn cần frontier model. Gemma 4 31B local không thể fix một Python app broken sau nhiều lần thử trong test thực tế.
- Extended thinking & prompt caching: Features riêng của Anthropic, sẽ fail silently với third-party models.
- Chính sách Anthropic (4/4/2026): Pro/Max subscriber bị block khỏi hầu hết third-party agent framework qua subscription. Cần dùng API key riêng để route sang model khác.
Tổng kết
Với task routine - viết test, refactor, comment, giải thích code - approach này hoạt động tốt và tiết kiệm đáng kể. Với project phức tạp, local model còn xa mới sánh được Opus. Chiến lược khôn ngoan nhất hiện tại là routing thông minh: dùng free/local cho 80% công việc thường ngày, giữ Opus cho 20% task đòi hỏi trí tuệ thực sự. Ecosystem này hoàn toàn là cộng đồng tự xây - Anthropic chưa có roadmap hỗ trợ chính thức cho local model trong Claude Code - nhưng với tốc độ phát triển hiện tại (claude-code-router vượt 20.900 GitHub stars), khả năng cao sẽ ngày càng ổn định hơn.
Nguồn: OpenRouter Docs, Ollama Official, MindStudio.



