Gemma 4: mô hình mở 31B của Google đánh bại đối thủ 400B và chạy offline trên điện thoại

TL;DR

Ngày 2/4/2026, Google DeepMind công bố Gemma 4 — họ mô hình mở 4 kích cỡ (E2B, E4B, 26B A4B MoE, 31B Dense), cấp phép Apache 2.0 không ràng buộc số MAU. Bản 31B Dense đạt 89,2% trên AIME 2026 math, 80,0% LiveCodeBench v6, 84,3% GPQA Diamond và Elo 1452 trên Arena AI — vượt Llama 4 (~400B MoE) ở cả bốn benchmark với kích thước nhỏ hơn ~20 lần. Hai bản edge E2B/E4B chạy offline trên điện thoại, Raspberry Pi, Jetson Nano và hỗ trợ audio native. Dòng 26B/31B có context 256K token — đủ để nhét nguyên repo vào một prompt.

Gemma 4 Elo-score vs model size, Arena AI leaderboard

Điểm mới chính

Bốn kích cỡ, một DNA: E2B (2,3B effective), E4B (4,5B effective), 26B A4B MoE (25,2B tổng / 3,8B active) và 31B Dense (30,7B).
Thinking mode cấu hình được: bật token <|think|> trong system prompt để mô hình suy luận từng bước trước khi trả lời. Có thể tắt để tiết kiệm token.
Function calling bake sẵn: 6 token đặc biệt cho tool declaration/call/response, structured JSON output, system role — đủ xịn cho agentic workflow mà không cần prompt engineering phức tạp.
Đa phương tiện native: tất cả bản đều xử lý text + ảnh (biến đổi aspect ratio, visual token budget 70/140/280/560/1120) + video. E2B/E4B bổ sung audio input (ASR + speech-to-translated-text).
Kiến trúc: xen kẽ local sliding-window (512/1024 token) và global full-context attention; dual RoPE; Per-Layer Embeddings; Shared KV Cache.
Giấy phép Apache 2.0: thương mại không giới hạn, bỏ ràng buộc MAU kiểu Llama.

Vì sao quan trọng

Gemma 4 là minh chứng rõ nhất đến nay cho việc kỷ nguyên "đua số tham số" đã đến hồi lợi nhuận giảm dần. Jim Fan (NVIDIA) gọi kết quả này là "paradigm shift — đường cong intelligence-per-FLOP vừa cong đột ngột. Điều này thay đổi kinh tế triển khai AI cho tất cả mọi người." Percy Liang (Stanford CRFM) đồng tình: đổi mới kiến trúc và hiệu quả huấn luyện đã thay thế việc nhân đôi tham số làm động lực tăng trưởng.

Với enterprise, ý nghĩa trực tiếp: bản 31B Dense chạy lọt vào một RTX 4090 24GB VRAM, bỏ qua được cụm multi-GPU trị giá $30.000 trở lên. Bản bfloat16 unquantized vẫn vừa một H100 80GB. Andrew Ng tóm gọn: "Đa số doanh nghiệp không cần mô hình nghìn tỷ tham số — họ cần mô hình tin cậy, an toàn, hiệu quả và kiểm soát được. Gemma 4 đúng như vậy."

Số liệu kỹ thuật

Gemma 4 Pareto frontier biểu đồ hiệu năng theo kích thước

Benchmark	Gemma 4 31B	26B A4B	E4B	E2B	Gemma 3 27B
Arena AI (text) 4/2/26	1452	1441	—	—	1365
MMLU Pro	85,2%	82,6%	69,4%	60,0%	67,6%
AIME 2026 (no tools)	89,2%	88,3%	42,5%	37,5%	20,8%
LiveCodeBench v6	80,0%	77,1%	52,0%	44,0%	29,1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84,3%	82,3%	58,6%	43,4%	42,4%
MRCR v2 128K	66,4%	44,1%	25,4%	19,1%	13,5%

Bản 31B Dense xếp #3 open model trên Arena AI text leaderboard, bản 26B MoE xếp #6 — và hai mô hình này chỉ cần context 256K token, chạy được trên GPU tiêu dùng. Codeforces ELO 2150 của 31B là ngưỡng master competitive coder.

So sánh với đối thủ

Bảng benchmark Gemma 4 so với Gemma 3 27B

Benchmark	Gemma 4 31B	Llama 4 (~400B MoE)	DeepSeek V4	GPT
AIME 2026 Math	89,2%	88,3%	42,5%	37,5%
LiveCodeBench v6	80,0%	77,1%	52,0%	44,0%
GPQA Diamond	84,3%	82,3%	58,6%	43,4%
τ2-bench Agentic (Retail)	86,4%	85,5%	57,5%	29,4%
Arena AI rank (open)	#3	#5	#8	closed

Nathan Lambert (Interconnects) ghi nhận 31B Dense ngang ngửa Qwen 3.5 27B — mô hình mở dẫn đầu phân khúc ~30B trước đó. So với thế hệ trước, bước nhảy sinh học: AIME 20,8% → 89,2%, LiveCodeBench 29,1% → 80,0%, GPQA 42,4% → 84,3%.

Ứng dụng thực tế

Agent offline trên điện thoại: E2B là nền tảng cho Gemini Nano 4 trên Android. Kết hợp audio input native, dev có thể dựng voice assistant chạy hoàn toàn local, không round-trip cloud.
Coding assistant local-first: 26B MoE ở quantization Q4_K_M chỉ chiếm ~18GB VRAM nhưng active param chỉ 3,8B → tốc độ sinh gần bằng mô hình 4B. 256K context cho phép đưa nguyên repo vào một prompt.
Agentic workflow: function calling với 6 token đặc biệt ghép tốt với MCP server (ví dụ SearXNG) và harness như Pi. Ít trường hợp "mô hình nhỏ không biết khi nào gọi tool" thường thấy ở open model khác.
Fine-tune chuyên ngành: Yale đã fine-tune cho Cell2Sentence-Scale để tìm pathway trị ung thư; INSAIT tạo BgGPT — LLM tiếng Bulgaria đầu tiên. TRL có example dạy Gemma 4 lái xe tránh người đi bộ trong sim CARLA.

Hạn chế & giá

Miễn phí dưới Apache 2.0, không giới hạn MAU. Yêu cầu phần cứng:

E2B/E4B: smartphone, Raspberry Pi 5, Jetson Orin Nano.
26B MoE: GPU tiêu dùng 16GB+ VRAM.
31B Dense: 24GB+ VRAM (RTX 4090) hoặc H100 80GB cho bfloat16, hoặc Cloud TPU.

Bất cập lớn nhất hiện tại: Google strip bỏ Multi-Token Prediction heads khỏi open weights (chỉ có trong LiteRT proprietary), khiến 31B bị giới hạn ~11 tok/s trên một số máy trong khi các mô hình lớn gấp đôi chạy tới 50+ tok/s. Cộng đồng đã có workaround: EAGLE3 draft head (+277MB, ~2× speedup, acceptance 0,75–0,82) và speculative decoding dùng E2B làm draft model cho 31B. Ngoài ra, 26B và 31B không hỗ trợ audio input — audio chỉ có ở E2B/E4B.

Weights đã có ngày đầu trên Hugging Face, Kaggle, Ollama, LM Studio, Docker, Vertex AI, Google AI Studio, vLLM, llama.cpp, MLX, Mistral.rs, NVIDIA NIM/NeMo, Unsloth, SGLang. Android developer có thể prototype agentic flow qua AICore Developer Preview để tương thích sẵn với Gemini Nano 4. Android Studio bật Agent Mode chạy trên Gemma 4. Interconnects úp mở rằng một bản MoE >100B total params đang được chuẩn bị nhưng chưa ra. Kaggle đã mở Gemma 4 Good Challenge cho cộng đồng.

Nguồn: blog.google, Google DeepMind, Hugging Face, Model Card, Interconnects, XDA Developers.

Gemma 4: mô hình mở 31B của Google đánh bại đối thủ 400B và chạy offline trên điện thoại

TL;DR

Điểm mới chính

Vì sao quan trọng

Số liệu kỹ thuật

So sánh với đối thủ

Ứng dụng thực tế

Hạn chế & giá

Tiếp theo

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7