TL;DR

Kể từ 2/4/2026, bạn có thể chạy Claude Code — full agent loop với file edits, tool calls, bash — hoàn toàn trên máy local, miễn phí và offline, nhờ Gemma 4 (Google DeepMind) cộng Ollama. Ollama ship sẵn lệnh ollama launch claude để route Claude Code CLI sang model local qua endpoint tương thích Anthropic. Setup mất khoảng 10 phút. Đánh đổi: với code base lớn/đa file, chất lượng debug vẫn chưa bằng Claude cloud — nên dùng hybrid.

What's new

Google DeepMind ra mắt Gemma 4 ngày 31/3/2026 (công bố chính thức 2/4/2026), đánh dấu lần đầu dòng Gemma chuyển sang giấy phép Apache 2.0 thay vì license riêng — cho phép dùng thương mại không hạn chế.

Cùng ngày, Ollama bổ sung lệnh mới ollama launch claude biến instance Ollama local thành một endpoint tương thích với API Anthropic trên http://localhost:11434. Claude Code CLI chỉ cần đổi ANTHROPIC_BASE_URL là coi Gemma 4 như một model "Claude" bình thường — giữ nguyên toàn bộ agent workflow: đọc/sửa file, chạy bash, gọi tool, multi-step planning.

Why it matters

  • Miễn phí: không tốn credit Anthropic, không tốn API key.
  • Riêng tư: code không rời máy — giải quyết bài toán compliance cho team legal/medical/defense hay dự án IP nhạy cảm.
  • Offline: code trên máy bay, trong văn phòng không có internet — vẫn có agent.
  • Mở: Apache 2.0, swap model tùy ý — Gemma 4 hôm nay, Qwen 3.5 ngày mai, Kimi K2.5 tuần sau, chỉ cần đổi flag --model.

Technical facts

Gemma 4 ship 4 size, mỗi size cân cho một loại phần cứng khác nhau:

VariantEffective paramsTotalRAM/VRAMContext
E2B2.3B5.1B8GB+128K
E4B4.5B8B8GB+128K
26B-A4B (MoE)3.8B active25.2B16GB+256K
31B Dense30.7B30.7B24GB+256K

Điểm đáng chú ý: bản 26B-A4B dùng kiến trúc Mixture-of-Experts chỉ activate 3.8B param mỗi token, đạt chất lượng ~10B dense ở chi phí inference 4B — sweet spot cho đa số máy.

Tất cả variant đều instruction-tuned với dữ liệu tool-use có cấu trúc, hỗ trợ function calling qua JSON schema native — điều kiện bắt buộc để agent loop của Claude Code hoạt động.

Benchmark đáng chú ý: Gemma 4 31B đạt 89.2% AIME 2026 (toán) so với Gemma 3 27B chỉ 20.8% — bước nhảy hơn 4 lần. Trên Arena AI leaderboard, 31B đứng #3 và 26B đứng #6 trong nhóm open model.

Comparison: Gemma 4 vs Gemma 3 vs cloud Claude

Tiêu chíGemma 3 27BGemma 4 31B (local)Claude cloud
AIME 202620.8%89.2%
Context window128K256K200K+
LicenseCustom GoogleApache 2.0Proprietary
Function callingKhông nativeNative JSON schemaNative
Chi phíFree (local)Free (local)Trả tiền
Riêng tưQua API
Chất lượng multi-file debugTrung bìnhKháTốt nhất

Setup step-by-step (dưới 10 phút)

1. Cài Ollama (macOS/Linux — một lệnh):

curl -fsSL https://ollama.com/install.sh | sh

2. Pull Gemma 4 — chọn size theo máy:

ollama pull gemma4:e4b       # laptop 8GB RAM
ollama pull gemma4:26b       # máy 16GB+ (khuyến nghị)
ollama pull gemma4:31b       # workstation GPU 24GB+

3. Cài Claude Code CLI:

curl -fsSL https://claude.ai/install.sh | bash

4. Kết nối Claude Code → Ollama:

ollama launch claude --model gemma4:26b

Hoặc set biến môi trường thủ công:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model gemma4:26b

5. Vào project và chạy:

cd ~/your-project
claude

Xong. Mọi lệnh /edit, /run, agent loop giờ chạy qua Gemma 4 local.

Use cases thực tế

  • Indie dev đang đốt credit Anthropic — giờ test refactor, boilerplate, doc query hoàn toàn free.
  • Team compliance-sensitive (y tế, pháp lý, defense) — code không rời máy, vẫn dùng được agent workflow hiện đại.
  • Offline dev — code trên máy bay, ở vùng net yếu.
  • Học/thử nghiệm model — swap --model giữa Gemma 4, Qwen 3.5, Kimi K2.5 để so sánh chất lượng trên cùng codebase.

Limitations & tradeoffs

Local không phải "free lunch". Một hands-on review ghi nhận bản 26B local "không thể fix được code" trong phiên debug iterative multi-file — tác giả phải chuyển sang gemma4:31b-cloud. Cụ thể:

  • Quality gap rõ với complex multi-file debugging — cloud Claude vẫn best-in-class.
  • Tool-use multi-step đôi khi loop sai khi plan > 5 bước.
  • 31B cần GPU 24GB (RTX 4090 hoặc hơn) — không phải ai cũng có.
  • Claude Code docs chính thức vẫn recommend kimi-k2.5:cloud, glm-5:cloud, qwen3.5:cloud — Gemma 4 là community-validated, chưa phải default.

Hybrid workflow — best of both

Pattern đang lên: dùng local cho task rẻ, cloud cho task khó.

  • Local Gemma 4: boilerplate, rename, doc lookup, RAG query, code explanation, commit message.
  • Cloud Claude: debug multi-file, refactor kiến trúc, review PR phức tạp.

Vì Claude Code CLI chỉ cần đổi flag --model, bạn có thể mở 2 terminal song song — một local, một cloud — và route task theo độ khó.

What's next

Google đang teaser phiên bản on-device cho mobile (E2B chạy thẳng trên điện thoại) và tier hosted trên Vertex AI. Cộng đồng đã bắt đầu finetune coding-specialized Gemma 4 — kỳ vọng gap với cloud Claude sẽ hẹp lại trong vài tháng tới.

Nguồn: blog.google, DeepMind, Ollama docs, Analytics Vidhya hands-on.