- Google DeepMind open-source demo chạy 10+ Gemma 4 26B A4B song song trên một MacBook Pro M4 Max, mỗi instance giữ 18 tok/s.
- Đây là bằng chứng sống cho kiến trúc MoE 3.8B active/25.2B total — ~180 tok/s aggregate chỉ trên một máy laptop.
TL;DR
Team Gemma vừa đăng demo open-source chạy 10+ instance Gemma 4 26B A4B song song trên một chiếc MacBook Pro M4 Max, mỗi request giữ ~18 tokens/sec. Tổng throughput ~180 tok/s trên một laptop — và đây chính là lý do tồn tại của thiết kế Mixture-of-Experts: 25.2B params tổng nhưng chỉ 3.8B active mỗi token, nên bạn có thể nhét nhiều bản cùng lúc vào 128GB unified memory mà vẫn mát máy.
Gemma 4 phát hành ngày 2/4/2026 dưới giấy phép Apache 2.0. Model 26B A4B đạt điểm Arena 1,441 (top 6 open model toàn cầu), chạy xấp xỉ tốc độ 4B dense nhưng giữ kiến thức của 25B dense. Demo concurrency này biến laptop cá nhân thành agent farm local.
What's new
Tweet gốc của team @googlegemma đi thẳng vào vấn đề: "What does it take to run 3, 5, or even 10 concurrent instances of Gemma 4 locally?". Câu trả lời: không cần datacenter, không cần H100, chỉ cần một MacBook Pro M4 Max. Repo demo cho phép khởi chạy nhiều bản model side-by-side trên cùng phần cứng — lý tưởng cho agent swarm, parallel tool calls, hoặc serving nhiều user nội bộ từ một máy.
Con số 18 tok/s per request × 10+ concurrent là chìa khoá: một bản Gemma 4 26B A4B chạy đơn lẻ trên M4 Max đạt 40–50 tok/s (Q4_K_M). Khi chia tài nguyên cho 10+ bản, mỗi bản vẫn đủ nhanh hơn tốc độ đọc của người (~4–5 tok/s) gấp 3–4 lần — tức trải nghiệm vẫn "thời gian thực" cho người dùng cuối.
Why it matters
Trước giờ, chạy nhiều agent song song có nghĩa là trả tiền API hoặc thuê GPU cloud. Demo này đảo cục diện:
- Agent swarm local: 10 agent cùng research, code, tool-call trên 1 máy — zero API cost, zero data leak.
- Multi-user internal serving: dev team 10 người dùng chung một MacBook Pro làm backend AI, mỗi người một instance.
- Parallel tool execution: agent gọi 5 tool cùng lúc, mỗi tool được phục vụ bởi một bản model riêng thay vì xếp hàng qua 1 queue.
- Quyền riêng tư tuyệt đối: toàn bộ input/output ở trong RAM máy cá nhân. Y tế, luật, tài chính đều ok.
Technical facts
Kiến trúc là lý do mọi thứ chạy được:
| Property | Gemma 4 26B A4B |
|---|---|
| Total parameters | 25.2B |
| Active parameters/token | 3.8B |
| Experts | 128 total · 8 active + 1 shared |
| Layers | 30 |
| Context window | 256K tokens |
| Sliding window | 1,024 tokens |
| Modalities | Text + Image |
| Q4 memory footprint | ~15.6–18 GB |
| Q8 memory footprint | ~28–30 GB |
| BF16 memory footprint | ~50–52 GB |
| License | Apache 2.0 |
Điểm kỹ thuật đáng lưu ý: Gemma 4 MoE không thay thế dense FFN bằng experts như các model MoE khác. Mỗi layer chạy song song một dense GeGLU FFN + 128-expert MoE system, rồi cộng output. Đây là lý do 26B A4B giữ được chất lượng rất gần 31B dense dù active params ít hơn 8 lần.
Attention là hybrid: sliding-window local (1,024 tokens) xen kẽ full global. Global layers dùng Unified KV + Proportional RoPE (p-RoPE), và N layer cuối dùng Shared KV Cache để tiết kiệm memory khi context dài — đúng thứ bạn cần khi chạy nhiều instance 256K context cùng lúc.
Comparison
So sánh 26B A4B với anh em cùng nhà và thế hệ trước:
| Benchmark | 26B A4B MoE | 31B Dense | Gemma 3 27B |
|---|---|---|---|
| Arena AI score | 1,441 | 1,452 | — |
| MMLU Pro | 82.6% | 85.2% | 67.6% |
| AIME 2026 (math) | 88.3% | 89.2% | 20.8% |
| LiveCodeBench v6 | 77.1% | 80.0% | 29.1% |
| Codeforces ELO | 1,718 | 2,150 | 110 |
| Tau2 Agentic | 68.2% | 76.9% | 16.2% |
| Inference speed (M4 Max Q4) | 40–50 tok/s | 20–30 tok/s | — |
Vs closed models: Gemma 4 31B (1,452) ngang Claude Sonnet 4.5 Thinking và vượt Gemini 2.5 Pro (1,448) + Qwen 3.5 397B (1,449). 26B A4B chỉ kém 31B đúng 2–3pp ở hầu hết benchmark nhưng chạy nhanh gấp 2–3 lần và nhẹ hơn nhiều khi cần concurrency.
Real-world concurrency numbers
Demo 10+ instance trên M4 Max không phải cá biệt. Một số báo cáo community khác củng cố pattern:
- AMD RX7900XTX 24GB: 4 concurrent chats, 512K combined context, ~100 tok/s aggregate, cảm giác "instant".
- Nvidia 12GB VRAM (Q5_K_XL): single instance đạt 44.2 tok/s text @ 128K, 42.1 tok/s vision @ 64K.
- CPU-only server (384GB RAM): 10+ E4B worker song song cho team nội bộ.
- M4 Max 128GB: 10+ instance 26B A4B @ 18 tok/s each — demo chính thức.
Use cases
- Agent swarm local: spawn 10 agent cho research, coding, QA, browser automation — tất cả song song, không API bill.
- Multi-tool orchestration: một agent điều phối 5 sub-agent cùng lúc gọi tool khác nhau (web search, DB query, file ops, ...).
- On-prem SaaS prototype: demo SaaS cho khách hàng mà không cần deploy cloud.
- Code review pipeline: mỗi PR có 3 reviewer AI độc lập (syntax, logic, security) chạy song song.
- Multi-persona simulation: test product với 10 persona khác nhau cùng chạy trên 1 máy.
Limitations & pricing
Gemma 4 là Apache 2.0 — hoàn toàn miễn phí cho mọi mục đích thương mại. Nhưng vẫn có vài cảnh báo thực tế:
- Không có audio input cho 26B/31B — muốn ASR phải dùng E2B/E4B.
- Bị censor khá nặng về y tế/sức khoẻ — nhiều câu hỏi cơ bản cũng bị từ chối.
- Context scaling: với input/output rất dài ở task agentic, 26B A4B có thể tụt so với 31B. Workload agent nặng context nên test kỹ.
- 16GB Mac: Q4 fit về mặt kỹ thuật (~15.6GB) nhưng không còn chỗ cho macOS → swap + chậm.
- Cập nhật chat template: llama.cpp phiên bản đầu có bug tokenizer + tool call. Google đã push bản sửa
chat_template.jinjavàtokenizer_config.json— update model.
How to run
Ba lệnh cơ bản:
# Ollama (dễ nhất)
ollama run gemma4:26b
# LM Studio (có GUI, hỗ trợ MLX vision)
lms get google/gemma-4-26b-a4b
# llama.cpp (control tối đa)
llama-server -m gemma-4-26B-A4B-it-UD-Q5_K_XL.gguf \
--ctx-size 131072 --flash-attn on --parallel 10
Tham số quan trọng để chạy concurrency: --parallel N trong llama-server để cho phép N slot decode song song. Với M4 Max 128GB, đặt N=10 là hợp lý — bằng đúng số instance trong demo.
What's next
Demo concurrency này báo hiệu một xu hướng: local-first agent infrastructure. Khi 1 laptop nhét vừa 10+ agent LLM, bài toán "phải trả tiền API để chạy agent" thay đổi hoàn toàn. Bước tiếp theo đáng theo dõi:
- Fine-tune community cho 26B A4B (coding chuyên biệt, uncensored variants) — dự kiến vài tuần tới.
- Framework agent orchestration tối ưu cho multi-instance local (OpenCode, pi-coding-agent đã bắt đầu).
- Gemma 4 Good Challenge trên Kaggle — cơ hội thấy use case lạ từ community.
Nguồn: blog.google, DeepMind, HuggingFace model card, @googlegemma.

