TL;DR

Ngày 2/4/2026, Google DeepMind công bố Gemma 4 — họ mô hình mở 4 kích cỡ (E2B, E4B, 26B A4B MoE, 31B Dense), cấp phép Apache 2.0 không ràng buộc số MAU. Bản 31B Dense đạt 89,2% trên AIME 2026 math, 80,0% LiveCodeBench v6, 84,3% GPQA Diamond và Elo 1452 trên Arena AI — vượt Llama 4 (~400B MoE) ở cả bốn benchmark với kích thước nhỏ hơn ~20 lần. Hai bản edge E2B/E4B chạy offline trên điện thoại, Raspberry Pi, Jetson Nano và hỗ trợ audio native. Dòng 26B/31B có context 256K token — đủ để nhét nguyên repo vào một prompt.

Gemma 4 Elo-score vs model size, Arena AI leaderboard

Điểm mới chính

  • Bốn kích cỡ, một DNA: E2B (2,3B effective), E4B (4,5B effective), 26B A4B MoE (25,2B tổng / 3,8B active) và 31B Dense (30,7B).
  • Thinking mode cấu hình được: bật token <|think|> trong system prompt để mô hình suy luận từng bước trước khi trả lời. Có thể tắt để tiết kiệm token.
  • Function calling bake sẵn: 6 token đặc biệt cho tool declaration/call/response, structured JSON output, system role — đủ xịn cho agentic workflow mà không cần prompt engineering phức tạp.
  • Đa phương tiện native: tất cả bản đều xử lý text + ảnh (biến đổi aspect ratio, visual token budget 70/140/280/560/1120) + video. E2B/E4B bổ sung audio input (ASR + speech-to-translated-text).
  • Kiến trúc: xen kẽ local sliding-window (512/1024 token) và global full-context attention; dual RoPE; Per-Layer Embeddings; Shared KV Cache.
  • Giấy phép Apache 2.0: thương mại không giới hạn, bỏ ràng buộc MAU kiểu Llama.

Vì sao quan trọng

Gemma 4 là minh chứng rõ nhất đến nay cho việc kỷ nguyên "đua số tham số" đã đến hồi lợi nhuận giảm dần. Jim Fan (NVIDIA) gọi kết quả này là "paradigm shift — đường cong intelligence-per-FLOP vừa cong đột ngột. Điều này thay đổi kinh tế triển khai AI cho tất cả mọi người." Percy Liang (Stanford CRFM) đồng tình: đổi mới kiến trúc và hiệu quả huấn luyện đã thay thế việc nhân đôi tham số làm động lực tăng trưởng.

Với enterprise, ý nghĩa trực tiếp: bản 31B Dense chạy lọt vào một RTX 4090 24GB VRAM, bỏ qua được cụm multi-GPU trị giá $30.000 trở lên. Bản bfloat16 unquantized vẫn vừa một H100 80GB. Andrew Ng tóm gọn: "Đa số doanh nghiệp không cần mô hình nghìn tỷ tham số — họ cần mô hình tin cậy, an toàn, hiệu quả và kiểm soát được. Gemma 4 đúng như vậy."

Số liệu kỹ thuật

Gemma 4 Pareto frontier biểu đồ hiệu năng theo kích thước

BenchmarkGemma 4 31B26B A4BE4BE2BGemma 3 27B
Arena AI (text) 4/2/26145214411365
MMLU Pro85,2%82,6%69,4%60,0%67,6%
AIME 2026 (no tools)89,2%88,3%42,5%37,5%20,8%
LiveCodeBench v680,0%77,1%52,0%44,0%29,1%
Codeforces ELO21501718940633110
GPQA Diamond84,3%82,3%58,6%43,4%42,4%
MRCR v2 128K66,4%44,1%25,4%19,1%13,5%

Bản 31B Dense xếp #3 open model trên Arena AI text leaderboard, bản 26B MoE xếp #6 — và hai mô hình này chỉ cần context 256K token, chạy được trên GPU tiêu dùng. Codeforces ELO 2150 của 31B là ngưỡng master competitive coder.

So sánh với đối thủ

Bảng benchmark Gemma 4 so với Gemma 3 27B

BenchmarkGemma 4 31BLlama 4 (~400B MoE)DeepSeek V4GPT
AIME 2026 Math89,2%88,3%42,5%37,5%
LiveCodeBench v680,0%77,1%52,0%44,0%
GPQA Diamond84,3%82,3%58,6%43,4%
τ2-bench Agentic (Retail)86,4%85,5%57,5%29,4%
Arena AI rank (open)#3#5#8closed

Nathan Lambert (Interconnects) ghi nhận 31B Dense ngang ngửa Qwen 3.5 27B — mô hình mở dẫn đầu phân khúc ~30B trước đó. So với thế hệ trước, bước nhảy sinh học: AIME 20,8% → 89,2%, LiveCodeBench 29,1% → 80,0%, GPQA 42,4% → 84,3%.

Ứng dụng thực tế

  • Agent offline trên điện thoại: E2B là nền tảng cho Gemini Nano 4 trên Android. Kết hợp audio input native, dev có thể dựng voice assistant chạy hoàn toàn local, không round-trip cloud.
  • Coding assistant local-first: 26B MoE ở quantization Q4_K_M chỉ chiếm ~18GB VRAM nhưng active param chỉ 3,8B → tốc độ sinh gần bằng mô hình 4B. 256K context cho phép đưa nguyên repo vào một prompt.
  • Agentic workflow: function calling với 6 token đặc biệt ghép tốt với MCP server (ví dụ SearXNG) và harness như Pi. Ít trường hợp "mô hình nhỏ không biết khi nào gọi tool" thường thấy ở open model khác.
  • Fine-tune chuyên ngành: Yale đã fine-tune cho Cell2Sentence-Scale để tìm pathway trị ung thư; INSAIT tạo BgGPT — LLM tiếng Bulgaria đầu tiên. TRL có example dạy Gemma 4 lái xe tránh người đi bộ trong sim CARLA.

Hạn chế & giá

Miễn phí dưới Apache 2.0, không giới hạn MAU. Yêu cầu phần cứng:

  • E2B/E4B: smartphone, Raspberry Pi 5, Jetson Orin Nano.
  • 26B MoE: GPU tiêu dùng 16GB+ VRAM.
  • 31B Dense: 24GB+ VRAM (RTX 4090) hoặc H100 80GB cho bfloat16, hoặc Cloud TPU.

Bất cập lớn nhất hiện tại: Google strip bỏ Multi-Token Prediction heads khỏi open weights (chỉ có trong LiteRT proprietary), khiến 31B bị giới hạn ~11 tok/s trên một số máy trong khi các mô hình lớn gấp đôi chạy tới 50+ tok/s. Cộng đồng đã có workaround: EAGLE3 draft head (+277MB, ~2× speedup, acceptance 0,75–0,82) và speculative decoding dùng E2B làm draft model cho 31B. Ngoài ra, 26B và 31B không hỗ trợ audio input — audio chỉ có ở E2B/E4B.

Tiếp theo

Weights đã có ngày đầu trên Hugging Face, Kaggle, Ollama, LM Studio, Docker, Vertex AI, Google AI Studio, vLLM, llama.cpp, MLX, Mistral.rs, NVIDIA NIM/NeMo, Unsloth, SGLang. Android developer có thể prototype agentic flow qua AICore Developer Preview để tương thích sẵn với Gemini Nano 4. Android Studio bật Agent Mode chạy trên Gemma 4. Interconnects úp mở rằng một bản MoE >100B total params đang được chuẩn bị nhưng chưa ra. Kaggle đã mở Gemma 4 Good Challenge cho cộng đồng.

Nguồn: blog.google, Google DeepMind, Hugging Face, Model Card, Interconnects, XDA Developers.