Gemma 4 chạy offline trên iPhone: 1.5GB, không cần mạng, không cần cloud

TL;DR

Ngày 2/4/2026, Google DeepMind ra mắt Gemma 4 (Apache 2.0). Trong đó, hai biến thể E2B (~2B tham số, ~1.5 GB) và E4B (~4B tham số, ~2.5 GB) được thiết kế để chạy hoàn toàn offline trên iPhone, Android, Raspberry Pi 5 và Jetson Nano. Trên iPhone 15 Pro trở lên, bạn tải app Google AI Edge Gallery hoặc Locally AI, kéo model về là dùng: chat, hỏi ảnh, ghi âm – không internet, không API key, không data rời máy.

Gemma 4 banner — Google DeepMind

What's new

Gemma 4 là gia đình 4 model mở: hai bản edge (E2B, E4B) cho thiết bị bỏ túi, và hai bản lớn (26B, 31B) cho GPU cá nhân. Điểm tạo chấn động không phải kích thước — mà là việc các bản edge native multimodal ngay từ đầu: vision (ảnh, OCR), audio (giọng nói đi thẳng vào model, không cần STT tách riêng), và function calling có cấu trúc JSON cho agent. 140 ngôn ngữ. Tất cả đóng gói trong ~1.5 GB.

Ngày 9/4/2026, Google phát hành app Google AI Edge Gallery lên App Store và Play Store. App có sẵn 3 demo: Ask Image (hỏi đáp đa phương tiện), Audio Scribe (phiên âm giọng nói), Prompt Lab (thử prompt). Cộng đồng iOS thì có Locally AI (dùng Apple MLX framework) và LM Studio iOS beta (chạy GGUF).

Why it matters

Lần đầu tiên một model mở, đa phương tiện, có function-calling, chạy thực sự offline trên điện thoại phổ thông. Ý nghĩa: (1) riêng tư tuyệt đối — dữ liệu y tế, pháp lý, nhật ký cá nhân không rời máy; (2) không phụ thuộc cloud — không roaming, không downtime, không bill bất ngờ; (3) latency gần-zero cho UX realtime; (4) mở — developer có thể fine-tune và nhúng vào app của họ mà không cần API provider.

Technical facts

Chỉ số	Gemma 4 E2B	Gemma 4 E4B
Tham số	~2B	~4B
Tải về (iPhone)	~1.5 GB	~2.5 GB
RAM cần (4-bit)	1–1.5 GB	2–3 GB
Tốc độ (Snapdragon 8 Gen 3)	20–35 tok/s	12–20 tok/s
Multimodal	Text + Vision + Audio	Text + Vision + Audio
Function calling	Có	Có (schema phức tạp hơn)
Ngôn ngữ	140 ngôn ngữ

Trên runtime LiteRT-LM, Gemma 4 xử lý 4,000 token input qua 2 skill trong dưới 3 giây. Raspberry Pi 5 CPU đạt 133 prefill / 7.6 decode tok/s; Qualcomm Dragonwing IQ8 có NPU đẩy lên 3,700 prefill / 31 decode tok/s. Apple Silicon (A17 Pro, M-series) chạy nhanh hơn đáng kể so với Android cùng phân khúc nhờ unified memory.

Lưu ý về Apple Neural Engine

Nhiều tiêu đề nói "chạy trên Apple Neural Engine". Thực tế: cả Locally AI (Apple MLX) lẫn Google AI Edge Gallery (LiteRT) đều route inference xuống GPU qua Metal, không phải ANE. Lý do: LLM cần tính linh hoạt của GPU shader, ANE hiện tại tối ưu cho mô hình CNN cố định. Nhờ vậy máy nóng ấm khi chạy E4B lâu.

Comparison

So với Gemma 3: Gemma 3 không có biến thể edge dưới 1B chuyên dụng. Gemma 4 có E2B/E4B được thiết kế từ đầu cho mobile, đi kèm quantization 2-bit + 4-bit tối ưu.

So với bản flagship Gemma 4 31B: 31B đạt MMLU đa ngôn ngữ 85.2%, AIME 2026 89.2%, LiveCodeBench 80.0%. E2B/E4B không chạm tới những con số đó, nhưng đánh đổi chính đáng: nhét được vào túi quần.

So với các model on-device khác (Phi-3.5 mini, Llama 3.2 1B/3B, Qwen 2.5 1.5B): Gemma 4 E2B/E4B là model edge mở đầu tiên có đầy đủ audio + vision + function calling native trong một binary, cộng 140 ngôn ngữ và định hướng agentic.

Use cases

Trợ lý giọng nói private: Audio Scribe phiên âm cuộc họp, không upload cloud.
Hỏi đáp ảnh: chụp hóa đơn, menu, bảng biểu → parse cấu trúc (OCR + reasoning) offline.
Du lịch / vùng sóng yếu: chat AI khi không có 4G.
Ngành nhạy cảm: y tế, pháp lý, journaling cá nhân — dữ liệu không rời máy.
Prototyping agent: Prompt Lab để thử function-calling workflow trước khi đưa lên server.
IoT & robotics: Pi 5, Jetson Nano, Arduino VENTUNO Q chạy tác vụ agentic offline.

Limitations & pricing

Giá: model mở Apache 2.0, miễn phí. App Locally AI và Google AI Edge Gallery free.
Tương thích iPhone: Google khuyến nghị iPhone 15 Pro trở lên. iPhone 14 Pro (A16) chạy được E2B; E4B thì khó.
Context window nhỏ: PDF dài bị crash trong thử nghiệm thực địa; transcription realtime chưa khả thi ở scale này.
Nhiệt & pin: máy nóng lên rõ rệt khi chạy E4B dài; sustained inference tốn pin nhanh — phù hợp burst ngắn.
Chưa dùng ANE: chờ framework Apple mở ANE cho LLM trong tương lai.

What's next

Roadmap Q2 2026: mở rộng AICore Developer Preview trên Android để app native gọi Gemma 4 như API hệ thống; cập nhật LiteRT-LM; hướng NPU acceleration cho Qualcomm, MediaTek, và Apple ANE khi framework sẵn sàng; cộng đồng fine-tune domain-specific (y tế, luật, code) sẽ nhiều hơn nhờ Apache 2.0.

Nguồn: Google DeepMind, Google Developers Blog, hoeijmakers.net, MindStudio, @rohanpaul_ai.

Gemma 4 chạy offline trên iPhone: 1.5GB, không cần mạng, không cần cloud

TL;DR

What's new

Why it matters

Technical facts

Lưu ý về Apple Neural Engine

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7