Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?

TL;DR

Ngày 31/3/2026, Ollama 0.19 ra mắt kèm MLX backend preview — framework ML của Apple chuyên cho unified memory. Benchmark chính thức trên Qwen3.5-35B-A3B, M4 Max 64GB: decode tăng 93% (58 → 112 tok/s), prefill tăng 1.6× (1,154 → 1,810 tok/s). Gemma 4 (ra mắt 2/4/2026) hiện chạy mượt qua đường GGUF/Metal và mlx-lm; native Gemma 4 MLX backend sẽ vào Ollama 0.20. Điều kiện bật MLX: Mac Apple Silicon tối thiểu 32GB unified memory và biến môi trường OLLAMA_MLX=1.

Ollama llama bên chiếc xe thể thao — hình minh hoạ chính thức cho MLX backend

Chuyện gì đang xảy ra

Tweet gốc từ @thinkverse chỉ một câu: "Gemma 4 trên MLX trong Ollama nhanh hơn hẳn trước." Ngắn nhưng khớp chính xác với làn sóng benchmark cộng đồng sau release Ollama 0.19.

Trước 0.19, Ollama dùng Metal backend của llama.cpp. Metal coi GPU như accelerator rời — dữ liệu phải copy qua lại giữa CPU memory và GPU memory, dù trên Apple Silicon chúng dùng chung một pool RAM vật lý. Copy đó là lãng phí băng thông.

MLX hiểu unified memory ngay từ đầu. Tensor sống trong một address space duy nhất. CPU và GPU cùng đọc cùng ghi mà không copy. Với LLM — vốn bottleneck ở memory bandwidth — bỏ được copy đồng nghĩa token generation nhanh hơn tuyến tính.

Tại sao quan trọng

Đây là bước nhảy performance lớn nhất cho Ollama trên Mac kể từ khi Metal support xuất hiện. Trong các workflow agent thực tế — Claude Code, OpenCode, Codex — decode speed là thứ cảm nhận được: khác biệt giữa text stream mượt và text giật cục.

Thêm nữa, combo này biến MacBook 32GB+ thành một trong những máy local-LLM mạnh nhất tiền tiêu dùng. Gemma 4 31B trên M4 Max 128GB đang chạy 40–50 tok/s ở Q4 — chất lượng ngang Claude Sonnet 4.5 trên bảng Arena, chạy offline, không trả $20–$200/tháng API.

Số liệu kỹ thuật

Benchmark chính thức Ollama (Qwen3.5-35B-A3B NVFP4 vs Q4_K_M, M4 Max, 29/3/2026):

Metric	llama.cpp (Metal) — 0.18	MLX backend — 0.19	Tăng
Prefill	1,154 tok/s	1,810 tok/s	1.6×
Decode	58 tok/s	112 tok/s	~93%
Decode (int4)	—	134 tok/s	2.3×

Kỳ vọng theo chip (cần 32GB+):

M3 Pro 36GB: decode gain ~60–80%
M4 Pro 48GB: ~80–90%
M4 Max 64GB: ~90–95%
M5 / M5 Pro / M5 Max: 90–95%+ nhờ GPU Neural Accelerators mới

Kèm theo 0.19: hỗ trợ NVFP4 (định dạng precision của NVIDIA — giữ accuracy cao, giảm bandwidth), cache reuse giữa các conversation, intelligent checkpoints trong prompt, smarter cache eviction. Tất cả nhắm vào agentic workflows có system prompt dài.

Vậy còn Gemma 4 thì sao?

Gemma 4 ra mắt 2/4/2026 dưới license Apache 2.0, gồm 4 model:

Model	Kiến trúc	Effective params	Context	Q4 size	Arena
E2B	Dense edge	2.3B	128K	~3.2 GB	—
E4B	Dense edge	4.5B	128K	~5 GB	—
26B A4B	MoE (128 experts)	3.8B active	256K	~15.6 GB	1,441
31B	Dense	30.7B	256K	~17.4 GB	1,452

Số Arena 1,452 của 31B ngang Claude Sonnet 4.5 Thinking, đứng #3 trong toàn bộ open-source. AIME 2026 nhảy từ 20.8% (Gemma 3) lên 89.2%. Codeforces ELO từ 110 → 2,150 (cấp Master). Đây không phải cập nhật — đây là leap thế hệ.

So sánh ngang: Apple Silicon vs phần cứng khác

Setup	Gemma 4 26B MoE	Gemma 4 31B Dense
Mac M4 Max 128GB (Q4_K_M)	~40 tok/s	40–50 tok/s
Mac M3/M4 Pro 36GB (Q4_K_M)	25–40 tok/s	20–35 tok/s
NVIDIA 12GB VRAM (Q5, llama.cpp)	~44.2 tok/s (text)	không vừa
x86 dual-socket DDR4 384GB (BF16)	8–15 tok/s	3–8 tok/s

Điểm mấu chốt: unified memory của Apple Silicon khiến bạn không gặp "VRAM cliff" kiểu PC. 24GB Mac chạy 31B Q4 thoải mái; PC muốn chạy 31B Q4 phải có ~20GB VRAM liên tục.

Use case đang được hưởng lợi

Coding agent: Claude Code, OpenCode, Codex — decode 93%+ nghĩa là loop agent rút ngắn nửa thời gian chờ.
Phân tích tài liệu nội bộ: đưa PDF, spreadsheet nhạy cảm cho 31B local — không một byte rời máy.
Speech & vision offline: E2B/E4B có audio encoder 300M — speech recognition hoàn toàn on-device.
Đa ngôn ngữ: Gemma 4 train 140+ ngôn ngữ (tiếng Việt nằm trong 35+ ngôn ngữ out-of-the-box).
Fine-tune: LoRA qua mlx-lm chỉ cần 50–500 cặp prompt-response, Ollama load adapter native.

Giới hạn & pricing

Giới hạn thực tế của preview:

MLX backend hiện chỉ chính thức hỗ trợ Qwen3.5. Chạy model không hỗ trợ với OLLAMA_MLX=1 sẽ âm thầm fallback về Metal — không báo lỗi. Kiểm bằng --verbose.
Cần 32GB+ unified memory. MacBook Air / Pro base 8–16GB không bật được MLX.
31B và 26B không hỗ trợ audio input — chỉ E2B/E4B có.
16GB Mac "vừa" 26B ở Q4 (15.6GB) nhưng sẽ swap nặng khi context dài.

Giá: Ollama miễn phí, Gemma 4 dưới Apache 2.0 — commercial use, sửa đổi, redistribute, fine-tune đều OK.

Tiếp theo là gì

Ollama 0.20 đang được phát triển với native Gemma 4 MLX backend. Team Ollama làm từng architecture một vì mỗi kiến trúc cần implementation MLX riêng. Kèm theo: cơ chế import model custom (đã fine-tune) dễ hơn, thêm danh sách architecture, thêm precision theo yêu cầu partner phần cứng. Ngày thoát preview chưa công bố.

Với Mac owner 32GB+, hành động đáng làm hôm nay: update lên 0.19, thử MLX với Qwen3.5, và pull gemma4:31b sẵn để test lại ngay hôm 0.20 ra.

Nguồn: Ollama Blog, DEV Community benchmarks, SudoAll Gemma 4 deep-dive, Gemma 4 Wiki, @thinkverse.