TL;DR

Ngày 2/4/2026 Google phát hành Gemma 4 — 4 size, Apache 2.0, mô hình 31B Dense đang đứng #3 LMArena open (điểm ước lượng 1452) và đánh bại Llama 4 400B+ trên AIME, LiveCodeBench, GPQA, τ2-bench. Một builder trên X vừa chạy 31B Dense ở Q4_K_M trên ROG Scar 18 (RTX 5090 Laptop, 24GB VRAM) với llama.cpp build cho Blackwell sm_120, đạt 15 tok/s sustained, 94W, 50°C, VRAM 22.8/24GB — và bảo nó tự build xong một hero section production trong 1 prompt, 1 file HTML, 5 phút. Thông điệp rất rõ: năm 2026, 24GB VRAM là đủ cho phần lớn việc builder làm mỗi ngày — không subscription, không ai log prompt của bạn.

What's new

Gemma 4 là thế hệ mô hình open lớn nhất Google từng ra mắt, xây trên chính research nền của Gemini 3. Bốn size: E2B, E4B, 26B A4B MoE (3.8B active / 25.2B total), và 31B Dense (30.7B, mọi tham số đều active mỗi token). 31B Dense là bản "raw quality" — dành cho chất lượng suy luận và fine-tuning tối đa.

  • Context 256K tokens, vocab 262K, hỗ trợ 140+ ngôn ngữ.
  • Multimodal: text + image (31B không có audio; audio là đặc quyền của E2B/E4B).
  • Hybrid attention xen kẽ sliding-window (1024 token) và global full-context, dual RoPE, Per-Layer Embeddings, Shared KV cache.
  • Native function calling, JSON output, system role, thinking mode qua token <|think|> — sinh ra để chạy agent.
  • Day-0 support: llama.cpp, Transformers, vLLM, Ollama, MLX, LM Studio, SGLang, NVIDIA NIM. License Apache 2.0 — không có giới hạn MAU kiểu Llama.

Why it matters

Story từ @sudoingX trên X cho thấy một điểm uốn thực tế: lần đầu tiên bạn có thể bỏ một mô hình dense 31B vào một chiếc laptop 24GB VRAM và để nó tự viết phần mềm thật. Flags anh ấy dùng khá gọn:

./build/bin/llama-server \
  -m ~/models/gemma4-31b/google_gemma-4-31B-it-Q4_K_M.gguf \
  -ngl 99 -c 131072 -np 1 -fa on \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --jinja --host 127.0.0.1 --port 8080

Điểm then chốt: -fa on (Flash Attention) + --cache-type-k/v q4_0 (quantize KV cache) giúp 31B Dense sống được trong 24GB mà vẫn giữ 128K context; --jinja để đúng chat template cho tool-calling; -ngl 99 đẩy toàn bộ layer lên GPU Blackwell. Harness là Hermes agent với native tool parsing — model gọi tool, nhận kết quả, viết file HTML, xong.

Technical facts

Benchmark chính thức của Gemma 4 31B (instruction-tuned):

BenchmarkGemma 4 31BLlama 4DeepSeek V4GPT baseline
AIME 2026 (no tools)89.2%88.3%42.5%37.5%
LiveCodeBench v680.0%77.1%52.0%44.0%
GPQA Diamond84.3%82.3%58.6%43.4%
τ2-bench Agentic (retail)86.4%85.5%57.5%29.4%
LMArena (open text)#3#5#8

Một số điểm khác đáng chú ý: MMLU Pro 85.2%, Codeforces ELO 2150, BigBench Extra Hard 74.4%, MMMLU 88.4%, MATH-Vision 85.6%, MRCR v2 8-needle 128k 66.4%.

Memory footprint của trọng số tĩnh:

QuantizationVRAM (weights only)
BF1658.3 GB
SFP830.4 GB
Q4_017.4 GB

17.4GB weights + KV cache + overhead → trên laptop 24GB thực đo 22.8GB. Vừa khít.

Comparison — tại sao case ROG Scar 18 nhanh gấp đôi RTX 4090 desktop

Benchmark độc lập từ n1n.ai đo Gemma 4 31B Dense trên RTX 4090 desktop 24GB: generation 7.84 tok/s, VRAM maxed ~23.5GB, phải offload sang system RAM. Thậm chí CPU-only 64-core AMD còn nhanh hơn (8.8 tok/s) vì bandwidth RAM đa kênh vượt đường truyền VRAM↔sysRAM.

Case trên ROG Scar 18 đạt 15 tok/s — gần gấp đôi. Không phải phép màu, mà là tổ hợp 3 thứ:

  • Blackwell sm_120: tensor core mới, bandwidth cao hơn, native FP4 support.
  • Q4_0 KV cache: giảm mạnh áp lực memory cho context 128K — model không phải offload.
  • Flash Attention + llama.cpp build mới: prompt eval + generation đều hưởng lợi.

Nói cách khác: cùng 24GB VRAM, một build tối ưu trên Blackwell có thể đưa 31B Dense từ "barely usable" sang "usable cho agent chạy autonomous".

Use cases — 24GB VRAM làm được gì trong 2026

Với setup này, "most builder work" là thật. Cụ thể:

  • Autonomous UI builds: 1 prompt → 1 file HTML production-ready trong 5 phút. Đây chỉ là warmup — bước tiếp theo là full page, rồi challenge "octopus invaders" multifile.
  • Agentic coding workflows: function calling + JSON + 256K context đủ để đọc nguyên repo hoặc long doc trong 1 prompt, gọi tool, iterate nhiều bước.
  • Offline code review, refactor, test generation: chất lượng gần Llama 4 400B nhưng chạy ngay trên bàn làm việc.
  • Private-data prototyping: no subscription, no rate limit, no vendor log. Quan trọng với team xử lý code/dữ liệu nhạy cảm.
  • Long-context reasoning: repo lớn, research paper, tài liệu hợp đồng đều vừa 256K (hoặc 128K khi cần tiết kiệm VRAM).

Khi cần tốc độ real-time (autocomplete, chatbot latency), đổi sang Gemma 4 26B A4B MoE — cùng 24GB nhưng đạt ~150 tok/s vì chỉ kích hoạt 3.8B active/token. Nghĩ đơn giản: 26B MoE là ca ngày, 31B Dense là ca đêm.

Limitations & pricing

  • Giá: 0 đồng cho trọng số. Apache 2.0, thương mại tự do, không có giới hạn MAU.
  • Giới hạn phần cứng: trên 24GB, 31B Dense chỉ chạy mượt khi có Blackwell + KV cache quantized. Trên 4090 desktop vẫn ổn nhưng chậm (~8 tok/s). Dưới 24GB quên đi — chọn 26B MoE hoặc E4B.
  • 256K context = RAM killer: thực tế người local nên giới hạn active context ở 32K–64K để giữ tốc độ.
  • Không audio trên 31B (audio chỉ có trên E2B/E4B).
  • Fine-tuning full tốn VRAM gấp nhiều lần inference — dùng LoRA/QLoRA nếu ở consumer HW.
  • Ảo giác vẫn có: LLM chứ không phải knowledge base. Luôn verify fact quan trọng.

What's next

Story này là warmup. @sudoingX nói sẽ thử tiếp full page trên cùng hardware, rồi "octopus invaders" — thử thách autonomous build multifile nhiều bước. Nếu chạy được, đó là tín hiệu rõ ràng cho cả hệ sinh thái: năm 2026 không cần thuê API hay build rig multi-GPU để có một coding agent mạnh — một laptop 24GB và một mô hình open dense 31B là đủ.

Các điểm đáng theo dõi tuần tới:

  • Multifile autonomous build — liệu Hermes harness + Gemma 4 31B có giữ được context consistency qua nhiều file không.
  • Benchmark thực tế của Blackwell sm_120 build so với CUDA 12 thường khi context tăng lên 64K–128K.
  • Community fine-tunes: "Gemmaverse" được dự đoán vượt 500K biến thể cuối 2026 — đặc biệt cho coding agent, domain-specific.

Nguồn: blog.google — Gemma 4, Hugging Face — Welcome Gemma 4, Gemma 4 model overview, n1n.ai benchmark, @sudoingX on X.