Chạy Claude Code miễn phí ngay trên máy với Gemma 4 + Ollama (setup 10 phút)

← quay lại timelineArticle thread

Chạy Claude Code miễn phí ngay trên máy với Gemma 4 + Ollama (setup 10 phút)

D. Chu

@donniechublog·25 Apr

25 Apr 2026·7 phút đọc

Highlights

Google vừa phát hành Gemma 4 với Apache 2.0, context 256K và function calling native.
Kết hợp với Ollama, bạn có thể biến Claude Code thành một agent coding chạy 100% local: miễn phí, riêng tư, offline — setup dưới 10 phút.

TL;DR

Kể từ 2/4/2026, bạn có thể chạy Claude Code — full agent loop với file edits, tool calls, bash — hoàn toàn trên máy local, miễn phí và offline, nhờ Gemma 4 (Google DeepMind) cộng Ollama. Ollama ship sẵn lệnh ollama launch claude để route Claude Code CLI sang model local qua endpoint tương thích Anthropic. Setup mất khoảng 10 phút. Đánh đổi: với code base lớn/đa file, chất lượng debug vẫn chưa bằng Claude cloud — nên dùng hybrid.

What's new

Google DeepMind ra mắt Gemma 4 ngày 31/3/2026 (công bố chính thức 2/4/2026), đánh dấu lần đầu dòng Gemma chuyển sang giấy phép Apache 2.0 thay vì license riêng — cho phép dùng thương mại không hạn chế.

Cùng ngày, Ollama bổ sung lệnh mới ollama launch claude biến instance Ollama local thành một endpoint tương thích với API Anthropic trên http://localhost:11434. Claude Code CLI chỉ cần đổi ANTHROPIC_BASE_URL là coi Gemma 4 như một model "Claude" bình thường — giữ nguyên toàn bộ agent workflow: đọc/sửa file, chạy bash, gọi tool, multi-step planning.

Why it matters

Miễn phí: không tốn credit Anthropic, không tốn API key.
Riêng tư: code không rời máy — giải quyết bài toán compliance cho team legal/medical/defense hay dự án IP nhạy cảm.
Offline: code trên máy bay, trong văn phòng không có internet — vẫn có agent.
Mở: Apache 2.0, swap model tùy ý — Gemma 4 hôm nay, Qwen 3.5 ngày mai, Kimi K2.5 tuần sau, chỉ cần đổi flag --model.

Technical facts

Gemma 4 ship 4 size, mỗi size cân cho một loại phần cứng khác nhau:

Variant	Effective params	Total	RAM/VRAM	Context
E2B	2.3B	5.1B	8GB+	128K
E4B	4.5B	8B	8GB+	128K
26B-A4B (MoE)	3.8B active	25.2B	16GB+	256K
31B Dense	30.7B	30.7B	24GB+	256K

Điểm đáng chú ý: bản 26B-A4B dùng kiến trúc Mixture-of-Experts chỉ activate 3.8B param mỗi token, đạt chất lượng ~10B dense ở chi phí inference 4B — sweet spot cho đa số máy.

Tất cả variant đều instruction-tuned với dữ liệu tool-use có cấu trúc, hỗ trợ function calling qua JSON schema native — điều kiện bắt buộc để agent loop của Claude Code hoạt động.

Benchmark đáng chú ý: Gemma 4 31B đạt 89.2% AIME 2026 (toán) so với Gemma 3 27B chỉ 20.8% — bước nhảy hơn 4 lần. Trên Arena AI leaderboard, 31B đứng #3 và 26B đứng #6 trong nhóm open model.

Comparison: Gemma 4 vs Gemma 3 vs cloud Claude

Tiêu chí	Gemma 3 27B	Gemma 4 31B (local)	Claude cloud
AIME 2026	20.8%	89.2%	—
Context window	128K	256K	200K+
License	Custom Google	Apache 2.0	Proprietary
Function calling	Không native	Native JSON schema	Native
Chi phí	Free (local)	Free (local)	Trả tiền
Riêng tư	✓	✓	Qua API
Chất lượng multi-file debug	Trung bình	Khá	Tốt nhất

Setup step-by-step (dưới 10 phút)

1. Cài Ollama (macOS/Linux — một lệnh):

curl -fsSL https://ollama.com/install.sh | sh

2. Pull Gemma 4 — chọn size theo máy:

ollama pull gemma4:e4b       # laptop 8GB RAM
ollama pull gemma4:26b       # máy 16GB+ (khuyến nghị)
ollama pull gemma4:31b       # workstation GPU 24GB+

3. Cài Claude Code CLI:

curl -fsSL https://claude.ai/install.sh | bash

4. Kết nối Claude Code → Ollama:

ollama launch claude --model gemma4:26b

Hoặc set biến môi trường thủ công:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model gemma4:26b

5. Vào project và chạy:

cd ~/your-project
claude

Xong. Mọi lệnh /edit, /run, agent loop giờ chạy qua Gemma 4 local.

Use cases thực tế

Indie dev đang đốt credit Anthropic — giờ test refactor, boilerplate, doc query hoàn toàn free.
Team compliance-sensitive (y tế, pháp lý, defense) — code không rời máy, vẫn dùng được agent workflow hiện đại.
Offline dev — code trên máy bay, ở vùng net yếu.
Học/thử nghiệm model — swap --model giữa Gemma 4, Qwen 3.5, Kimi K2.5 để so sánh chất lượng trên cùng codebase.

Limitations & tradeoffs

Local không phải "free lunch". Một hands-on review ghi nhận bản 26B local "không thể fix được code" trong phiên debug iterative multi-file — tác giả phải chuyển sang gemma4:31b-cloud. Cụ thể:

Quality gap rõ với complex multi-file debugging — cloud Claude vẫn best-in-class.
Tool-use multi-step đôi khi loop sai khi plan > 5 bước.
31B cần GPU 24GB (RTX 4090 hoặc hơn) — không phải ai cũng có.
Claude Code docs chính thức vẫn recommend kimi-k2.5:cloud, glm-5:cloud, qwen3.5:cloud — Gemma 4 là community-validated, chưa phải default.

Hybrid workflow — best of both

Pattern đang lên: dùng local cho task rẻ, cloud cho task khó.

Local Gemma 4: boilerplate, rename, doc lookup, RAG query, code explanation, commit message.
Cloud Claude: debug multi-file, refactor kiến trúc, review PR phức tạp.

Vì Claude Code CLI chỉ cần đổi flag --model, bạn có thể mở 2 terminal song song — một local, một cloud — và route task theo độ khó.

What's next

Google đang teaser phiên bản on-device cho mobile (E2B chạy thẳng trên điện thoại) và tier hosted trên Vertex AI. Cộng đồng đã bắt đầu finetune coding-specialized Gemma 4 — kỳ vọng gap với cloud Claude sẽ hẹp lại trong vài tháng tới.

Nguồn: blog.google, DeepMind, Ollama docs, Analytics Vidhya hands-on.

Chạy Claude Code miễn phí ngay trên máy với Gemma 4 + Ollama (setup 10 phút)

TL;DR

What's new

Why it matters

Technical facts

Comparison: Gemma 4 vs Gemma 3 vs cloud Claude

Setup step-by-step (dưới 10 phút)

Use cases thực tế

Limitations & tradeoffs

Hybrid workflow — best of both

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Orca IDE v1.3.18: Bình luận trực tiếp lên diff, gửi cả review cho AI agent trong một click