Gemma 4 26B A4B: 10+ instances chạy song song trên MacBook Pro M4 Max

TL;DR

Team Gemma vừa đăng demo open-source chạy 10+ instance Gemma 4 26B A4B song song trên một chiếc MacBook Pro M4 Max, mỗi request giữ ~18 tokens/sec. Tổng throughput ~180 tok/s trên một laptop — và đây chính là lý do tồn tại của thiết kế Mixture-of-Experts: 25.2B params tổng nhưng chỉ 3.8B active mỗi token, nên bạn có thể nhét nhiều bản cùng lúc vào 128GB unified memory mà vẫn mát máy.

Gemma 4 phát hành ngày 2/4/2026 dưới giấy phép Apache 2.0. Model 26B A4B đạt điểm Arena 1,441 (top 6 open model toàn cầu), chạy xấp xỉ tốc độ 4B dense nhưng giữ kiến thức của 25B dense. Demo concurrency này biến laptop cá nhân thành agent farm local.

What's new

Tweet gốc của team @googlegemma đi thẳng vào vấn đề: "What does it take to run 3, 5, or even 10 concurrent instances of Gemma 4 locally?". Câu trả lời: không cần datacenter, không cần H100, chỉ cần một MacBook Pro M4 Max. Repo demo cho phép khởi chạy nhiều bản model side-by-side trên cùng phần cứng — lý tưởng cho agent swarm, parallel tool calls, hoặc serving nhiều user nội bộ từ một máy.

Con số 18 tok/s per request × 10+ concurrent là chìa khoá: một bản Gemma 4 26B A4B chạy đơn lẻ trên M4 Max đạt 40–50 tok/s (Q4_K_M). Khi chia tài nguyên cho 10+ bản, mỗi bản vẫn đủ nhanh hơn tốc độ đọc của người (~4–5 tok/s) gấp 3–4 lần — tức trải nghiệm vẫn "thời gian thực" cho người dùng cuối.

Why it matters

Trước giờ, chạy nhiều agent song song có nghĩa là trả tiền API hoặc thuê GPU cloud. Demo này đảo cục diện:

Agent swarm local: 10 agent cùng research, code, tool-call trên 1 máy — zero API cost, zero data leak.
Multi-user internal serving: dev team 10 người dùng chung một MacBook Pro làm backend AI, mỗi người một instance.
Parallel tool execution: agent gọi 5 tool cùng lúc, mỗi tool được phục vụ bởi một bản model riêng thay vì xếp hàng qua 1 queue.
Quyền riêng tư tuyệt đối: toàn bộ input/output ở trong RAM máy cá nhân. Y tế, luật, tài chính đều ok.

Technical facts

Kiến trúc là lý do mọi thứ chạy được:

Property	Gemma 4 26B A4B
Total parameters	25.2B
Active parameters/token	3.8B
Experts	128 total · 8 active + 1 shared
Layers	30
Context window	256K tokens
Sliding window	1,024 tokens
Modalities	Text + Image
Q4 memory footprint	~15.6–18 GB
Q8 memory footprint	~28–30 GB
BF16 memory footprint	~50–52 GB
License	Apache 2.0

Điểm kỹ thuật đáng lưu ý: Gemma 4 MoE không thay thế dense FFN bằng experts như các model MoE khác. Mỗi layer chạy song song một dense GeGLU FFN + 128-expert MoE system, rồi cộng output. Đây là lý do 26B A4B giữ được chất lượng rất gần 31B dense dù active params ít hơn 8 lần.

Attention là hybrid: sliding-window local (1,024 tokens) xen kẽ full global. Global layers dùng Unified KV + Proportional RoPE (p-RoPE), và N layer cuối dùng Shared KV Cache để tiết kiệm memory khi context dài — đúng thứ bạn cần khi chạy nhiều instance 256K context cùng lúc.

Comparison

So sánh 26B A4B với anh em cùng nhà và thế hệ trước:

Benchmark	26B A4B MoE	31B Dense	Gemma 3 27B
Arena AI score	1,441	1,452	—
MMLU Pro	82.6%	85.2%	67.6%
AIME 2026 (math)	88.3%	89.2%	20.8%
LiveCodeBench v6	77.1%	80.0%	29.1%
Codeforces ELO	1,718	2,150	110
Tau2 Agentic	68.2%	76.9%	16.2%
Inference speed (M4 Max Q4)	40–50 tok/s	20–30 tok/s	—

Vs closed models: Gemma 4 31B (1,452) ngang Claude Sonnet 4.5 Thinking và vượt Gemini 2.5 Pro (1,448) + Qwen 3.5 397B (1,449). 26B A4B chỉ kém 31B đúng 2–3pp ở hầu hết benchmark nhưng chạy nhanh gấp 2–3 lần và nhẹ hơn nhiều khi cần concurrency.

Real-world concurrency numbers

Demo 10+ instance trên M4 Max không phải cá biệt. Một số báo cáo community khác củng cố pattern:

AMD RX7900XTX 24GB: 4 concurrent chats, 512K combined context, ~100 tok/s aggregate, cảm giác "instant".
Nvidia 12GB VRAM (Q5_K_XL): single instance đạt 44.2 tok/s text @ 128K, 42.1 tok/s vision @ 64K.
CPU-only server (384GB RAM): 10+ E4B worker song song cho team nội bộ.
M4 Max 128GB: 10+ instance 26B A4B @ 18 tok/s each — demo chính thức.

Use cases

Agent swarm local: spawn 10 agent cho research, coding, QA, browser automation — tất cả song song, không API bill.
Multi-tool orchestration: một agent điều phối 5 sub-agent cùng lúc gọi tool khác nhau (web search, DB query, file ops, ...).
On-prem SaaS prototype: demo SaaS cho khách hàng mà không cần deploy cloud.
Code review pipeline: mỗi PR có 3 reviewer AI độc lập (syntax, logic, security) chạy song song.
Multi-persona simulation: test product với 10 persona khác nhau cùng chạy trên 1 máy.

Limitations & pricing

Gemma 4 là Apache 2.0 — hoàn toàn miễn phí cho mọi mục đích thương mại. Nhưng vẫn có vài cảnh báo thực tế:

Không có audio input cho 26B/31B — muốn ASR phải dùng E2B/E4B.
Bị censor khá nặng về y tế/sức khoẻ — nhiều câu hỏi cơ bản cũng bị từ chối.
Context scaling: với input/output rất dài ở task agentic, 26B A4B có thể tụt so với 31B. Workload agent nặng context nên test kỹ.
16GB Mac: Q4 fit về mặt kỹ thuật (~15.6GB) nhưng không còn chỗ cho macOS → swap + chậm.
Cập nhật chat template: llama.cpp phiên bản đầu có bug tokenizer + tool call. Google đã push bản sửa chat_template.jinja và tokenizer_config.json — update model.

How to run

Ba lệnh cơ bản:

# Ollama (dễ nhất)
ollama run gemma4:26b

# LM Studio (có GUI, hỗ trợ MLX vision)
lms get google/gemma-4-26b-a4b

# llama.cpp (control tối đa)
llama-server -m gemma-4-26B-A4B-it-UD-Q5_K_XL.gguf \
  --ctx-size 131072 --flash-attn on --parallel 10

Tham số quan trọng để chạy concurrency: --parallel N trong llama-server để cho phép N slot decode song song. Với M4 Max 128GB, đặt N=10 là hợp lý — bằng đúng số instance trong demo.

What's next

Demo concurrency này báo hiệu một xu hướng: local-first agent infrastructure. Khi 1 laptop nhét vừa 10+ agent LLM, bài toán "phải trả tiền API để chạy agent" thay đổi hoàn toàn. Bước tiếp theo đáng theo dõi:

Fine-tune community cho 26B A4B (coding chuyên biệt, uncensored variants) — dự kiến vài tuần tới.
Framework agent orchestration tối ưu cho multi-instance local (OpenCode, pi-coding-agent đã bắt đầu).
Gemma 4 Good Challenge trên Kaggle — cơ hội thấy use case lạ từ community.

Nguồn: blog.google, DeepMind, HuggingFace model card, @googlegemma.

Gemma 4 26B A4B: 10+ instances chạy song song trên MacBook Pro M4 Max

TL;DR

What's new

Why it matters

Technical facts

Comparison

Real-world concurrency numbers

Use cases

Limitations & pricing

How to run

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7