- Gemini Omni Flash ra mắt tại Google I/O ngày 19/05/2026, xử lý text, image, audio và video đồng thời trong một token space duy nhất - không phải ghép nhiều model riêng lẻ.
- Hai clip video có thể chiếm tới 86% daily quota của gói Google AI Pro.
- API dự kiến $0.10/giây (standard) và $0.30/giây (high-quality).
- Sora đã đóng consumer app tháng 4/2026 - Google và ByteDance đang dẫn đầu cuộc đua AI video 2026.
TL;DR
Google DeepMind ra mắt Gemini Omni tại Google I/O 2026 - một family model multimodal hoàn toàn mới, xử lý đồng thời text, image, audio và video trong cùng một token space. Model đầu tiên trong series, Gemini Omni Flash, đã live ngay hôm nay trên Gemini app, YouTube Shorts và Google Flow. Điểm đột phá không phải là chất lượng video - mà là khả năng chỉnh sửa video bằng cách chat, không cần timeline hay keyframe.
Gemini Omni là gì - và tại sao nó không phải Veo
Trước khi đi sâu, cần phân biệt rõ một điều mà nhiều bài viết bỏ qua: Gemini Omni không phải là Veo phiên bản mới.
Veo (hiện tại là Veo 3.1) là một dedicated text-to-video diffusion model - nó generate frame tuần tự, không có cross-modal reasoning thực sự. Kết quả là "temporal drift": model quên mất background trông như thế nào từ vài frame trước đó.
Gemini Omni khác ở chỗ: nó xử lý text, image, audio và video đồng thời trong cùng một token space. Không có việc ghép 3-4 model riêng lẻ. Không có temporal drift. Trong pre-release benchmarks, Omni đã outperform Veo về scene composition và physics handling.
Như DeepMind CEO Demis Hassabis mô tả: "Model đầu tiên có thể tạo ra bất cứ thứ gì từ bất cứ đầu vào nào."
Điểm đột phá bị underrated: Chỉnh sửa video bằng chat
Phần mà các headline bỏ qua là: conversational video editing.
Thay vì timeline, keyframe hay mask tool, bạn gõ trực tiếp vào clip: "Giữ nguyên bố cục cảnh quay, nhưng đổi màn hình terminal từ xanh lam sang xanh lá neon." Model hiểu những gì đang có trong video và thực hiện thay đổi theo đúng prompt, không đụng đến phần còn lại.
Điều này collapse toàn bộ workflow trước đây cần ít nhất 3 tool riêng - text-to-image, image-to-video, video editor - thành một model duy nhất. DeepMind engineer Gabe Barth-Maron mô tả các use case đơn giản hơn: tạo video bản thân lên mặt trăng, nhận giải thưởng, xóa người lạ khỏi video du lịch. Ông gọi chúng là "personalized memes".
Một lưu ý thực tế: prompt phải rất cụ thể. Nếu không, Omni có thể over-edit hoặc thay đổi nhầm những gì bạn muốn giữ nguyên.
Con số đáng chú ý
- 10 giây - giới hạn video hiện tại của Omni Flash (không phải giới hạn kỹ thuật, là quyết định chiến lược)
- 86% - daily quota Google AI Pro bị drain chỉ sau 2 clip video high-fidelity (theo pre-release leak)
- $0.10/giây - giá API dự kiến cho standard quality; $0.30/giây cho high-quality (chưa chính thức)
- $100/tháng - tier Ultra để dùng Omni Flash ngay hôm nay
- 4 modalities - text, image, audio, video - trong cùng một token space
Chi phí compute rất cao là thực tế không thể bỏ qua. Google có lợi thế server farm khổng lồ để subsidize - nhưng usage limit cho thấy "cost per generation" vẫn là bài toán chưa được giải quyết hoàn toàn ngay cả với Google.
Sora đã chết - cuộc đua thuộc về ai?
OpenAI đóng cửa Sora consumer app vào tháng 4/2026 và sẽ sunset API vào tháng 9/2026. Lý do: compute cost khổng lồ + không có native distribution platform để monetize + moderation nightmare.
Landscape AI video tháng 5/2026 thực ra khá rõ ràng:
| Model | Công ty | Điểm mạnh |
|---|---|---|
| Seedance 2.0 | ByteDance | Top benchmark, 90%+ commercial usability, TikTok pipeline |
| Veo 3.1 | Cinematic quality, GA API, audio-visual sync | |
| HappyHorse-1.0 | Alibaba | ELO 1411 trên Artificial Analysis Video Arena |
| Kling V3.0 | Kuaishou | $20M+ monthly revenue, nhiều variant |
| Sora 2 | OpenAI | API-only (consumer app đã đóng) |
Advantage của Gemini Omni không phải là chất lượng video thuần túy - mà là unified multimodal generation. Mọi model kể trên đều là specialized video generator. Không cái nào đồng thời xử lý image creation + text reasoning + native video output. Đây là lý do Omni "occupies a category of one" - theo đúng nghĩa đen.
Ai nên dùng ngay - và ai nên chờ
Nên dùng ngay nếu: bạn là content creator, YouTuber, hoặc marketer muốn thử conversational editing trên Gemini app hoặc YouTube Shorts (miễn phí cho Shorts). Avatar generation cũng available trên Shorts ngay hôm nay.
Nên chờ nếu: bạn là developer cần production pipeline. Developer API (Gemini API + Vertex AI) chưa live - dự kiến "vài tuần tới". Hiện tại, Veo 3.1 vẫn là lựa chọn cho production video generation với GA API và pricing xác định.
Enterprise: Bắt đầu review SynthID và AI content governance ngay bây giờ, trước khi API ship và trở thành urgent.
Tiếp theo là gì
Google đã xác nhận roadmap:
- Vài tuần tới: Developer API qua Gemini API & Vertex AI
- ~1 tháng: AI Studio preview; broader rollout bao gồm free-tier
- Near future: Video dài hơn 10 giây
- Chưa xác định: Deepfake features (voice swap, voice preservation khi đổi ngoại hình) - Google đã demo nhưng chủ động hold back
- Chưa xác định: Omni Pro model - sẽ ra khi đạt "step change above Flash"
Long-term vision của Demis Hassabis là "create anything from any input" - bao gồm cả generate image từ audio, audio từ video. Đây là bước đầu tiên trong hành trình đó.
via TechCrunch - Google Blog - ByteIota
