Gemma 4 + Falcon Perception: agent thị giác chạy local trên MacBook, không cần API

TL;DR

Roundtable vừa trình diễn một agentic vision pipeline chạy 100% local trên MacBook bằng MLX: Gemma 4 (Google DeepMind, Apache 2.0) xem video rồi tự sinh câu hỏi ngôn ngữ tự nhiên, gọi Falcon Perception (TII, Apache 2.0) để định vị & đếm đối tượng. Kết quả trong demo: Find all the people → 156, Detect only white cars → 8. Không API, không cloud, không per-call fee.

Có gì mới

Thay vì một mô hình đa phương tiện khổng lồ gánh mọi thứ, pipeline này tách rõ hai vai trò:

Gemma 4 = orchestrator. Đọc video, suy luận, tự sinh câu hỏi grounding, gọi tool qua structured JSON.
Falcon Perception = perception tool. Nhận prompt tự nhiên, trả về bounding boxes + segmentation masks chính xác pixel.

Toàn bộ vòng lặp được orchestrate bằng Gemma 4 tool-calling và chạy qua mlx-vlm v0.4.3 (Prince Canuma ship Day-0 support hôm 2/4/2026). Không có bước nào cần gọi mạng.

Vì sao đáng chú ý

Từ trước tới nay, video analytics kiểu "đếm người trong đám đông" hoặc "lọc xe màu trắng" gắn liền với hạ tầng cloud — YOLO trên GPU server, hoặc API của các vendor lớn. Demo này chứng minh:

Với ~6 GB RAM, một MacBook Pro M4 có thể chạy agent thị giác đủ mạnh cho prototype.
Mô hình 0.6B (Falcon Perception) có thể hơn SAM 3 của Meta trên các split khó.
Khi tất cả đều Apache 2.0, rào cản vendor biến mất — indie dev, nhà báo điều tra, nhà sản xuất biên đều có thể build tool riêng mà không lo lộ dữ liệu.

Thông số kỹ thuật

Gemma 4 (phát hành 2/4/2026, Apache 2.0) có 4 biến thể:

Biến thể	Params	Active	Context	Modalities
E2B	2.3B eff / 5.1B total	2.3B	128K	image, text, video, audio
E4B	4.5B eff / 8B total	4.5B	128K	image, text, video, audio
26B A4B (MoE)	26B	4B	256K	image, text, video
31B dense	31B	31B	256K	image, text, video

Hiệu năng MLX trên MacBook Pro M4 Pro 24GB (Unsloth 4-bit): E2B 81 tok/s @ 3.6 GB, E4B 49 tok/s @ 5.6 GB. Tool-calling + structured JSON là native, không cần grammar constraint.

Falcon Perception là Transformer early-fusion 0.6B tham số, xử lý image patches & text tokens trong cùng không gian tham số ngay từ layer 1. Giải mã theo "Chain-of-Perception": <|coord|> → <|size|> → <|seg|> cho từng instance, mask full-resolution sinh qua dot-product projection (không autoregressive). Trained qua multi-teacher distillation từ DINOv3 + SigLIP2 trên 685 gigatoken.

So sánh với Meta SAM 3

Trên benchmark PBench macro-F1, Falcon Perception 0.6B vượt SAM 3 — đặc biệt ở các split khó:

Split	Falcon Perception	SAM 3	Δ
Simple objects	65.1	64.3	+0.8
Attributes	63.6	54.4	+9.2
Spatial understanding	53.5	31.6	+21.9
Dense scenes	72.6	58.4	+14.2

Một model 600M tham số đánh bại một flagship segmentation stack với hai chữ số điểm trên split "spatial understanding" là kết quả bất ngờ — và nó đủ nhẹ để nằm trên cùng một laptop với Gemma 4.

Use cases thực tế

Video analytics offline: đếm người, theo dõi phương tiện, retail footfall — không frame nào rời khỏi máy, phù hợp GDPR / privacy-first.
Edge manufacturing & warehousing: phát hiện lỗi + suy luận nguyên nhân trên dây chuyền không có mạng ổn định.
Accessibility & trợ lý cá nhân: "mô tả thế giới quanh tôi" mà không gửi video lên cloud.
Journalism / investigation: phân tích footage nhạy cảm, zero vendor lock-in, zero log-trail.
Prototyping robotics: vòng lặp perception + reasoning rẻ trên laptop trước khi chuyển sang embedded.
Indie hackers: build vision agent thương mại trên Apache 2.0, không per-call API cost.

Hạn chế & giá

Miễn phí hoàn toàn — trọng số Apache 2.0 trên Hugging Face (google/gemma-4-*, tiiuae/Falcon-Perception).
Latency cộng dồn: mỗi frame cần nhiều perception pass, không real-time cho stream FPS cao trên laptop.
Vật thể bị che khuất vẫn khó — Falcon Perception giỏi nhưng không hoàn hảo.
Falcon Perception chỉ chuyên grounding/segmentation; long-form reasoning, multi-step VQA vẫn là việc của Gemma 4.
Yêu cầu PyTorch ≥ 2.5 (FlexAttention) hoặc mlx-vlm ≥ 0.4.3 trên Apple Silicon. 24 GB RAM là mức tối thiểu thực dụng; 36 GB M3/M4 Pro là sweet spot nếu muốn chạy luôn biến thể 26B A4B MoE.

Kế tiếp

Khi cả orchestrator lẫn perception tool đều mở, cộng đồng sẽ cắm thêm các tool mới vào cùng vòng lặp: FalconOCR 300M (đã tie với Gemini 3 Pro 80.2% trên olmOCR), depth estimation, pose estimation, audio diarization. Dự kiến sớm có template ROS / robotics tích hợp sẵn agent Gemma 4 + Falcon, cộng thêm các TurboQuant MLX chuyên cho từng dòng Apple Silicon.

Nguồn: Hugging Face Gemma 4 blog, Falcon Perception model card, MarkTechPost, TII announcement, Roundtable demo tweet.

Gemma 4 + Falcon Perception: agent thị giác chạy local trên MacBook, không cần API

TL;DR

Có gì mới

Vì sao đáng chú ý

Thông số kỹ thuật

So sánh với Meta SAM 3

Use cases thực tế

Hạn chế & giá

Kế tiếp

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7