- Google vừa phát hành Gemma 4 với Apache 2.0, context 256K và function calling native.
- Kết hợp với Ollama, bạn có thể biến Claude Code thành một agent coding chạy 100% local: miễn phí, riêng tư, offline — setup dưới 10 phút.
TL;DR
Kể từ 2/4/2026, bạn có thể chạy Claude Code — full agent loop với file edits, tool calls, bash — hoàn toàn trên máy local, miễn phí và offline, nhờ Gemma 4 (Google DeepMind) cộng Ollama. Ollama ship sẵn lệnh ollama launch claude để route Claude Code CLI sang model local qua endpoint tương thích Anthropic. Setup mất khoảng 10 phút. Đánh đổi: với code base lớn/đa file, chất lượng debug vẫn chưa bằng Claude cloud — nên dùng hybrid.
What's new
Google DeepMind ra mắt Gemma 4 ngày 31/3/2026 (công bố chính thức 2/4/2026), đánh dấu lần đầu dòng Gemma chuyển sang giấy phép Apache 2.0 thay vì license riêng — cho phép dùng thương mại không hạn chế.
Cùng ngày, Ollama bổ sung lệnh mới ollama launch claude biến instance Ollama local thành một endpoint tương thích với API Anthropic trên http://localhost:11434. Claude Code CLI chỉ cần đổi ANTHROPIC_BASE_URL là coi Gemma 4 như một model "Claude" bình thường — giữ nguyên toàn bộ agent workflow: đọc/sửa file, chạy bash, gọi tool, multi-step planning.
Why it matters
- Miễn phí: không tốn credit Anthropic, không tốn API key.
- Riêng tư: code không rời máy — giải quyết bài toán compliance cho team legal/medical/defense hay dự án IP nhạy cảm.
- Offline: code trên máy bay, trong văn phòng không có internet — vẫn có agent.
- Mở: Apache 2.0, swap model tùy ý — Gemma 4 hôm nay, Qwen 3.5 ngày mai, Kimi K2.5 tuần sau, chỉ cần đổi flag
--model.
Technical facts
Gemma 4 ship 4 size, mỗi size cân cho một loại phần cứng khác nhau:
| Variant | Effective params | Total | RAM/VRAM | Context |
|---|---|---|---|---|
| E2B | 2.3B | 5.1B | 8GB+ | 128K |
| E4B | 4.5B | 8B | 8GB+ | 128K |
| 26B-A4B (MoE) | 3.8B active | 25.2B | 16GB+ | 256K |
| 31B Dense | 30.7B | 30.7B | 24GB+ | 256K |
Điểm đáng chú ý: bản 26B-A4B dùng kiến trúc Mixture-of-Experts chỉ activate 3.8B param mỗi token, đạt chất lượng ~10B dense ở chi phí inference 4B — sweet spot cho đa số máy.
Tất cả variant đều instruction-tuned với dữ liệu tool-use có cấu trúc, hỗ trợ function calling qua JSON schema native — điều kiện bắt buộc để agent loop của Claude Code hoạt động.
Benchmark đáng chú ý: Gemma 4 31B đạt 89.2% AIME 2026 (toán) so với Gemma 3 27B chỉ 20.8% — bước nhảy hơn 4 lần. Trên Arena AI leaderboard, 31B đứng #3 và 26B đứng #6 trong nhóm open model.
Comparison: Gemma 4 vs Gemma 3 vs cloud Claude
| Tiêu chí | Gemma 3 27B | Gemma 4 31B (local) | Claude cloud |
|---|---|---|---|
| AIME 2026 | 20.8% | 89.2% | — |
| Context window | 128K | 256K | 200K+ |
| License | Custom Google | Apache 2.0 | Proprietary |
| Function calling | Không native | Native JSON schema | Native |
| Chi phí | Free (local) | Free (local) | Trả tiền |
| Riêng tư | ✓ | ✓ | Qua API |
| Chất lượng multi-file debug | Trung bình | Khá | Tốt nhất |
Setup step-by-step (dưới 10 phút)
1. Cài Ollama (macOS/Linux — một lệnh):
curl -fsSL https://ollama.com/install.sh | sh2. Pull Gemma 4 — chọn size theo máy:
ollama pull gemma4:e4b # laptop 8GB RAM
ollama pull gemma4:26b # máy 16GB+ (khuyến nghị)
ollama pull gemma4:31b # workstation GPU 24GB+3. Cài Claude Code CLI:
curl -fsSL https://claude.ai/install.sh | bash4. Kết nối Claude Code → Ollama:
ollama launch claude --model gemma4:26bHoặc set biến môi trường thủ công:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model gemma4:26b5. Vào project và chạy:
cd ~/your-project
claudeXong. Mọi lệnh /edit, /run, agent loop giờ chạy qua Gemma 4 local.
Use cases thực tế
- Indie dev đang đốt credit Anthropic — giờ test refactor, boilerplate, doc query hoàn toàn free.
- Team compliance-sensitive (y tế, pháp lý, defense) — code không rời máy, vẫn dùng được agent workflow hiện đại.
- Offline dev — code trên máy bay, ở vùng net yếu.
- Học/thử nghiệm model — swap
--modelgiữa Gemma 4, Qwen 3.5, Kimi K2.5 để so sánh chất lượng trên cùng codebase.
Limitations & tradeoffs
Local không phải "free lunch". Một hands-on review ghi nhận bản 26B local "không thể fix được code" trong phiên debug iterative multi-file — tác giả phải chuyển sang gemma4:31b-cloud. Cụ thể:
- Quality gap rõ với complex multi-file debugging — cloud Claude vẫn best-in-class.
- Tool-use multi-step đôi khi loop sai khi plan > 5 bước.
- 31B cần GPU 24GB (RTX 4090 hoặc hơn) — không phải ai cũng có.
- Claude Code docs chính thức vẫn recommend
kimi-k2.5:cloud,glm-5:cloud,qwen3.5:cloud— Gemma 4 là community-validated, chưa phải default.
Hybrid workflow — best of both
Pattern đang lên: dùng local cho task rẻ, cloud cho task khó.
- Local Gemma 4: boilerplate, rename, doc lookup, RAG query, code explanation, commit message.
- Cloud Claude: debug multi-file, refactor kiến trúc, review PR phức tạp.
Vì Claude Code CLI chỉ cần đổi flag --model, bạn có thể mở 2 terminal song song — một local, một cloud — và route task theo độ khó.
What's next
Google đang teaser phiên bản on-device cho mobile (E2B chạy thẳng trên điện thoại) và tier hosted trên Vertex AI. Cộng đồng đã bắt đầu finetune coding-specialized Gemma 4 — kỳ vọng gap với cloud Claude sẽ hẹp lại trong vài tháng tới.
Nguồn: blog.google, DeepMind, Ollama docs, Analytics Vidhya hands-on.

