TL;DR

Ngày 22/04/2026, Google DeepMind công bố Vision Banana — model unified đầu tiên đánh bại hoặc ngang tầm các specialist hàng đầu như Segment Anything và Depth Anything trên hàng loạt tác vụ 2D và 3D, chỉ bằng cách reframing vision tasks thành image generation. Base model là Nano Banana Pro, chỉ instruction-tuning nhẹ trên một lượng nhỏ vision data. Paper: arXiv:2604.20329.

Vision Banana teaser — một model giải nhiều tác vụ vision cùng lúc

Vision Banana có gì mới

Ý tưởng trung tâm rất gọn: nếu image generation đủ tốt, mọi output của vision task đều có thể parameterize thành một ảnh RGB. Semantic mask? Ảnh với color map. Depth map? Ảnh grayscale encode độ sâu. Surface normal? Ảnh RGB encode hướng pháp tuyến. Thay vì huấn luyện từng specialist cho từng task, Vision Banana dùng image generation như một universal interface — đúng vai trò mà text generation đã đóng cho NLP trong kỷ nguyên LLM.

Model được build trên Nano Banana Pro (Gemini 3 Pro Image model), sau đó instruction-tune trên mixture của (1) dữ liệu gốc NBP và (2) một lượng nhỏ vision task data. Không train từ đầu, không thay kiến trúc backbone — một cú fine-tune nhẹ là đủ để biến một image generator trở thành generalist vision learner.

Vì sao đây là bước ngoặt

Trong 5 năm qua, CV đã chứng kiến sự thống trị của các specialist foundation model: SAM / SAM 2 cho segmentation, Depth Anything cho depth. Mỗi cái xuất sắc ở một lane. Vision Banana nói rằng một model generative duy nhất có thể ăn hết các lane đó — đồng thời vẫn giữ được khả năng sinh ảnh gốc. Đây là khoảnh khắc "LLM" của computer vision: một backbone, nhiều tác vụ, chất lượng SoTA, prompt bằng ngôn ngữ tự nhiên.

Hệ quả kéo theo: stack tool cho robotics, AR/VR, auto-editing, autonomous driving có thể thu gọn đáng kể. Thay vì chạy 3–4 model cho cùng một frame ảnh, chỉ cần một inference call.

Technical facts

Vision Banana đạt state-of-the-art trong zero-shot transfer trên 3 nhóm tác vụ:

Tác vụBenchmarkKết quả
Semantic segmentation (2D)Cityscapes0.842 mIoU
Metric depth (3D)Average 6 benchmarks0.882 δ₁
Surface normal (3D)Average 3 benchmarks15.549° mean angular error

5 tác vụ được hỗ trợ chính thức:

  • Semantic segmentation — gán nhãn per-pixel với color map tuỳ biến qua prompt
  • Instance segmentation — phân biệt từng instance bằng màu khác nhau
  • Referring expression segmentation — mask theo mô tả text (vd "người đang skate")
  • Monocular metric depth estimation — depth map từ một ảnh duy nhất
  • Surface normal estimation — bản đồ hướng pháp tuyến bề mặt

Output semantic segmentation của Vision Banana

So với các specialist hiện tại

Mô hìnhPhạm viKiến trúcĐối đầu Vision Banana
SAM / SAM 2Segmentation (prompt-based)SpecialistVision Banana rival hoặc beat trên nhiều seg benchmark
Depth Anything v2Monocular depthSpecialistVision Banana rival hoặc beat ở metric depth
Vision Banana5 tác vụ 2D + 3D + genGeneralist từ image generator

Điểm đắt giá: Vision Banana vẫn giữ nguyên năng lực sinh ảnh của Nano Banana Pro. Một tool duy nhất cover cả creative generation lẫn structured understanding.

Use cases thực tế

  • Robotics / AR/VR: depth + normal + segmentation từ một camera qua một model duy nhất.
  • Image editing: mask tự động qua prompt ngôn ngữ tự nhiên — "segment cái áo đỏ" là xong.
  • Autonomous driving R&D: prototype nhanh với Cityscapes-grade segmentation mà không cần train specialist.
  • Creative tools: cùng một model vừa generate, vừa hiểu ảnh — giảm số API call, giảm latency pipeline.

Metric depth estimation cho Fallingwater

Limitations & pricing

  • Paper nhấn mạnh zero-shot transfer — chưa công bố kết quả fine-tune per-dataset.
  • Weights và API chưa public tại thời điểm announcement; trang project thuần research disclosure, không có download hay bảng giá.
  • Inference cost thừa kế backbone Nano Banana Pro — nặng hơn SAM hoặc Depth Anything V2 khi xét per-image throughput.
  • Độ chính xác bị chặn trên bởi resolution và tokenization fidelity của image output — không tuyệt đối phù hợp cho các use case cần pixel-accurate mask (vd medical segmentation).

Surface normal estimation output

What's next

Framing "image generation as universal interface" mở cửa cho nhiều tác vụ vision khác: optical flow, keypoints, pose, object tracking, thậm chí là video understanding. Nếu DeepMind thương mại hoá qua Gemini API hoặc Vercel AI Gateway, ranh giới giữa "generate" và "understand" trong tool chain CV sẽ biến mất — y như cách mà chat completion đã nuốt cả classification, summarization, extraction ở phía NLP.

Nguồn: vision-banana.github.io, Google DeepMind publications, arXiv:2604.20329.