- Một vòng lặp agentic hai mô hình mở — Gemma 4 đặt câu hỏi, Falcon Perception trả lời — phân tích video ngay trên MacBook qua MLX.
- Demo đếm 156 người và 8 xe trắng trong một clip, hoàn toàn offline.
TL;DR
Roundtable vừa trình diễn một agentic vision pipeline chạy 100% local trên MacBook bằng MLX: Gemma 4 (Google DeepMind, Apache 2.0) xem video rồi tự sinh câu hỏi ngôn ngữ tự nhiên, gọi Falcon Perception (TII, Apache 2.0) để định vị & đếm đối tượng. Kết quả trong demo: Find all the people → 156, Detect only white cars → 8. Không API, không cloud, không per-call fee.
Có gì mới
Thay vì một mô hình đa phương tiện khổng lồ gánh mọi thứ, pipeline này tách rõ hai vai trò:
- Gemma 4 = orchestrator. Đọc video, suy luận, tự sinh câu hỏi grounding, gọi tool qua structured JSON.
- Falcon Perception = perception tool. Nhận prompt tự nhiên, trả về bounding boxes + segmentation masks chính xác pixel.
Toàn bộ vòng lặp được orchestrate bằng Gemma 4 tool-calling và chạy qua mlx-vlm v0.4.3 (Prince Canuma ship Day-0 support hôm 2/4/2026). Không có bước nào cần gọi mạng.
Vì sao đáng chú ý
Từ trước tới nay, video analytics kiểu "đếm người trong đám đông" hoặc "lọc xe màu trắng" gắn liền với hạ tầng cloud — YOLO trên GPU server, hoặc API của các vendor lớn. Demo này chứng minh:
- Với ~6 GB RAM, một MacBook Pro M4 có thể chạy agent thị giác đủ mạnh cho prototype.
- Mô hình 0.6B (Falcon Perception) có thể hơn SAM 3 của Meta trên các split khó.
- Khi tất cả đều Apache 2.0, rào cản vendor biến mất — indie dev, nhà báo điều tra, nhà sản xuất biên đều có thể build tool riêng mà không lo lộ dữ liệu.
Thông số kỹ thuật
Gemma 4 (phát hành 2/4/2026, Apache 2.0) có 4 biến thể:
| Biến thể | Params | Active | Context | Modalities |
|---|---|---|---|---|
| E2B | 2.3B eff / 5.1B total | 2.3B | 128K | image, text, video, audio |
| E4B | 4.5B eff / 8B total | 4.5B | 128K | image, text, video, audio |
| 26B A4B (MoE) | 26B | 4B | 256K | image, text, video |
| 31B dense | 31B | 31B | 256K | image, text, video |
Hiệu năng MLX trên MacBook Pro M4 Pro 24GB (Unsloth 4-bit): E2B 81 tok/s @ 3.6 GB, E4B 49 tok/s @ 5.6 GB. Tool-calling + structured JSON là native, không cần grammar constraint.
Falcon Perception là Transformer early-fusion 0.6B tham số, xử lý image patches & text tokens trong cùng không gian tham số ngay từ layer 1. Giải mã theo "Chain-of-Perception": <|coord|> → <|size|> → <|seg|> cho từng instance, mask full-resolution sinh qua dot-product projection (không autoregressive). Trained qua multi-teacher distillation từ DINOv3 + SigLIP2 trên 685 gigatoken.
So sánh với Meta SAM 3
Trên benchmark PBench macro-F1, Falcon Perception 0.6B vượt SAM 3 — đặc biệt ở các split khó:
| Split | Falcon Perception | SAM 3 | Δ |
|---|---|---|---|
| Simple objects | 65.1 | 64.3 | +0.8 |
| Attributes | 63.6 | 54.4 | +9.2 |
| Spatial understanding | 53.5 | 31.6 | +21.9 |
| Dense scenes | 72.6 | 58.4 | +14.2 |
Một model 600M tham số đánh bại một flagship segmentation stack với hai chữ số điểm trên split "spatial understanding" là kết quả bất ngờ — và nó đủ nhẹ để nằm trên cùng một laptop với Gemma 4.
Use cases thực tế
- Video analytics offline: đếm người, theo dõi phương tiện, retail footfall — không frame nào rời khỏi máy, phù hợp GDPR / privacy-first.
- Edge manufacturing & warehousing: phát hiện lỗi + suy luận nguyên nhân trên dây chuyền không có mạng ổn định.
- Accessibility & trợ lý cá nhân: "mô tả thế giới quanh tôi" mà không gửi video lên cloud.
- Journalism / investigation: phân tích footage nhạy cảm, zero vendor lock-in, zero log-trail.
- Prototyping robotics: vòng lặp perception + reasoning rẻ trên laptop trước khi chuyển sang embedded.
- Indie hackers: build vision agent thương mại trên Apache 2.0, không per-call API cost.
Hạn chế & giá
- Miễn phí hoàn toàn — trọng số Apache 2.0 trên Hugging Face (
google/gemma-4-*,tiiuae/Falcon-Perception). - Latency cộng dồn: mỗi frame cần nhiều perception pass, không real-time cho stream FPS cao trên laptop.
- Vật thể bị che khuất vẫn khó — Falcon Perception giỏi nhưng không hoàn hảo.
- Falcon Perception chỉ chuyên grounding/segmentation; long-form reasoning, multi-step VQA vẫn là việc của Gemma 4.
- Yêu cầu PyTorch ≥ 2.5 (FlexAttention) hoặc
mlx-vlm≥ 0.4.3 trên Apple Silicon. 24 GB RAM là mức tối thiểu thực dụng; 36 GB M3/M4 Pro là sweet spot nếu muốn chạy luôn biến thể 26B A4B MoE.
Kế tiếp
Khi cả orchestrator lẫn perception tool đều mở, cộng đồng sẽ cắm thêm các tool mới vào cùng vòng lặp: FalconOCR 300M (đã tie với Gemini 3 Pro 80.2% trên olmOCR), depth estimation, pose estimation, audio diarization. Dự kiến sớm có template ROS / robotics tích hợp sẵn agent Gemma 4 + Falcon, cộng thêm các TurboQuant MLX chuyên cho từng dòng Apple Silicon.
Nguồn: Hugging Face Gemma 4 blog, Falcon Perception model card, MarkTechPost, TII announcement, Roundtable demo tweet.

