Gemini Omni: Model đầu tiên của Google tạo video từ bất cứ đầu vào nào

TL;DR

Google DeepMind ra mắt Gemini Omni tại Google I/O 2026 - một family model multimodal hoàn toàn mới, xử lý đồng thời text, image, audio và video trong cùng một token space. Model đầu tiên trong series, Gemini Omni Flash, đã live ngay hôm nay trên Gemini app, YouTube Shorts và Google Flow. Điểm đột phá không phải là chất lượng video - mà là khả năng chỉnh sửa video bằng cách chat, không cần timeline hay keyframe.

Gemini Omni là gì - và tại sao nó không phải Veo

Trước khi đi sâu, cần phân biệt rõ một điều mà nhiều bài viết bỏ qua: Gemini Omni không phải là Veo phiên bản mới.

Veo (hiện tại là Veo 3.1) là một dedicated text-to-video diffusion model - nó generate frame tuần tự, không có cross-modal reasoning thực sự. Kết quả là "temporal drift": model quên mất background trông như thế nào từ vài frame trước đó.

Gemini Omni khác ở chỗ: nó xử lý text, image, audio và video đồng thời trong cùng một token space. Không có việc ghép 3-4 model riêng lẻ. Không có temporal drift. Trong pre-release benchmarks, Omni đã outperform Veo về scene composition và physics handling.

Như DeepMind CEO Demis Hassabis mô tả: "Model đầu tiên có thể tạo ra bất cứ thứ gì từ bất cứ đầu vào nào."

Gemini Omni - kiến trúc multimodal xử lý image, audio, text, video trong cùng một token space

Điểm đột phá bị underrated: Chỉnh sửa video bằng chat

Phần mà các headline bỏ qua là: conversational video editing.

Thay vì timeline, keyframe hay mask tool, bạn gõ trực tiếp vào clip: "Giữ nguyên bố cục cảnh quay, nhưng đổi màn hình terminal từ xanh lam sang xanh lá neon." Model hiểu những gì đang có trong video và thực hiện thay đổi theo đúng prompt, không đụng đến phần còn lại.

Điều này collapse toàn bộ workflow trước đây cần ít nhất 3 tool riêng - text-to-image, image-to-video, video editor - thành một model duy nhất. DeepMind engineer Gabe Barth-Maron mô tả các use case đơn giản hơn: tạo video bản thân lên mặt trăng, nhận giải thưởng, xóa người lạ khỏi video du lịch. Ông gọi chúng là "personalized memes".

Một lưu ý thực tế: prompt phải rất cụ thể. Nếu không, Omni có thể over-edit hoặc thay đổi nhầm những gì bạn muốn giữ nguyên.

Con số đáng chú ý

10 giây - giới hạn video hiện tại của Omni Flash (không phải giới hạn kỹ thuật, là quyết định chiến lược)
86% - daily quota Google AI Pro bị drain chỉ sau 2 clip video high-fidelity (theo pre-release leak)
$0.10/giây - giá API dự kiến cho standard quality; $0.30/giây cho high-quality (chưa chính thức)
$100/tháng - tier Ultra để dùng Omni Flash ngay hôm nay
4 modalities - text, image, audio, video - trong cùng một token space

Chi phí compute rất cao là thực tế không thể bỏ qua. Google có lợi thế server farm khổng lồ để subsidize - nhưng usage limit cho thấy "cost per generation" vẫn là bài toán chưa được giải quyết hoàn toàn ngay cả với Google.

Sora đã chết - cuộc đua thuộc về ai?

OpenAI đóng cửa Sora consumer app vào tháng 4/2026 và sẽ sunset API vào tháng 9/2026. Lý do: compute cost khổng lồ + không có native distribution platform để monetize + moderation nightmare.

Landscape AI video tháng 5/2026 thực ra khá rõ ràng:

Model	Công ty	Điểm mạnh
Seedance 2.0	ByteDance	Top benchmark, 90%+ commercial usability, TikTok pipeline
Veo 3.1	Google	Cinematic quality, GA API, audio-visual sync
HappyHorse-1.0	Alibaba	ELO 1411 trên Artificial Analysis Video Arena
Kling V3.0	Kuaishou	$20M+ monthly revenue, nhiều variant
Sora 2	OpenAI	API-only (consumer app đã đóng)

Advantage của Gemini Omni không phải là chất lượng video thuần túy - mà là unified multimodal generation. Mọi model kể trên đều là specialized video generator. Không cái nào đồng thời xử lý image creation + text reasoning + native video output. Đây là lý do Omni "occupies a category of one" - theo đúng nghĩa đen.

Ai nên dùng ngay - và ai nên chờ

Nên dùng ngay nếu: bạn là content creator, YouTuber, hoặc marketer muốn thử conversational editing trên Gemini app hoặc YouTube Shorts (miễn phí cho Shorts). Avatar generation cũng available trên Shorts ngay hôm nay.

Nên chờ nếu: bạn là developer cần production pipeline. Developer API (Gemini API + Vertex AI) chưa live - dự kiến "vài tuần tới". Hiện tại, Veo 3.1 vẫn là lựa chọn cho production video generation với GA API và pricing xác định.

Enterprise: Bắt đầu review SynthID và AI content governance ngay bây giờ, trước khi API ship và trở thành urgent.

Tiếp theo là gì

Google đã xác nhận roadmap:

Vài tuần tới: Developer API qua Gemini API & Vertex AI
~1 tháng: AI Studio preview; broader rollout bao gồm free-tier
Near future: Video dài hơn 10 giây
Chưa xác định: Deepfake features (voice swap, voice preservation khi đổi ngoại hình) - Google đã demo nhưng chủ động hold back
Chưa xác định: Omni Pro model - sẽ ra khi đạt "step change above Flash"

Long-term vision của Demis Hassabis là "create anything from any input" - bao gồm cả generate image từ audio, audio từ video. Đây là bước đầu tiên trong hành trình đó.

via TechCrunch - Google Blog - ByteIota