- Gemini Omni Flash cho phép tạo video từ bất kỳ kết hợp text, ảnh, âm thanh và video nào.
- Tính năng avatar digital cho phép bạn tạo bản sao kỹ thuật số của chính mình chỉ trong 2 phút.
- Video được nhúng watermark SynthID để xác minh tính xác thực.
- Giá từ $7.99/tháng (Google AI Plus) hoặc miễn phí trên YouTube Shorts.
TL;DR
Gemini Omni Flash là mô hình video AI multimodal mới nhất của Google, kết hợp khả năng lập luận của Gemini với khả năng tạo media nâng cao. Nó hỗ trợ input đa dạng (text, image, audio, video) trong một engine duy nhất - không cần chuyển đổi tuần tự.
Tính năng chính: tạo video từ text, chuyển ảnh tĩnh thành video, chỉnh sửa video qua chat bằng ngôn ngữ tự nhiên, và tạo avatar digital của chính bạn trong 2 phút. Tất cả video đều có watermark SynthID (không thể tắt) để xác minh nguồn gốc.
Gemini Omni là gì?
Gemini Omni là một mô hình video AI được thiết kế theo hướng tiếp cận "reasoning first, then render" - nó không chỉ là một bộ tạo video mà là một mô hình thế giới hiểu logic của thực tế rồi mới sinh ra video.
Điểm đột phá: thay vì xử lý các input tuần tự (ví dụ: chuyển ảnh thành text, rồi dùng text để tạo video), Gemini Omni xử lý tất cả input cùng lúc trong một engine duy nhất. Bạn có thể cung cấp:
- Một hình ảnh tĩnh (để làm reference visual)
- Một video ngắn (để lấy motion hoặc lighting)
- Một file âm thanh (để đặt mood hoặc tempo)
- Text description (để mô tả cảnh)
Rồi Omni sẽ hòa trộn tất cả thành một video liền mạch duy nhất - không mất chi tiết khi chuyển đổi giữa các định dạng.

Tại sao Google giới thiệu mô hình này?
Omni là câu trả lời của Google cho sự bùng nổ của AI video. OpenAI Sora, Adobe Firefly, và các công cụ khác đã chứng tỏ sức hút của khả năng tạo video từ prompt. Nhưng các công cụ đó thường là tạo video từ đầu (text-to-video) hoặc tạo từ một loại input duy nhất.
Omni thay đổi trò chơi: thay vì "viết một prompt để lấy một video", nó là "chat với video để tinh chỉnh nó". Bạn tạo một clip, rồi nói với Omni "thay background thành phố", "làm ánh sáng ấm hơn", "ổn định shot này" - mà không cần tạo lại từ đầu.
Hơn nữa, Google nhúng Omni trực tiếp vào các platform khổng lồ của mình: Gemini app (toàn cầu), Google Flow (cho creator), YouTube Shorts (miễn phí). Không phải bản riêng biệt, không phải learn cả một công cụ mới.
Khả năng chính của Omni
Khả năng 1: Tập hợp input thực đàng
Bạn có thể chứa đựng text, image, audio, video trong cùng một prompt. Ví dụ:
"Lấy hình ảnh sản phẩm này (image_1.jpg), thêm motion của video này (ref.mp4), điều chỉnh tốc độ theo nhạc này (music.wav), rồi mô tả: 'sản phẩm nó giương lên từ từ, camera xoay quanh'"
Omni sẽ hiểu tất cả yêu cầu cùng lúc, không cần bạn lặp lại hoặc chuyển đổi định dạng.
Khả năng 2: Chỉnh sửa đàm thoại (Conversational Editing)
Sau khi tạo một video, bạn có thể:
- Swapping assets: "Thay background thành đại lộ Paris"
- Style transfer: "Làm video này trông giống như film 1970s"
- Lighting & mood: "Làm ánh sáng ấm hơn, giống buổi hoàng hôn"
- Stabilization: "Ổn định shot này"
- Character modification: "Người này mặc áo xanh thay vì áo đỏ"
Mỗi lệnh xây dựng lên lệnh trước - nhân vật vẫn nhất quán, vật lý vẫn logic, camera movement vẫn smooth.
Khả năng 3: Thế giới vật lý (World Model)
Phần mềm video AI cũ thường tạo ra những cảnh "nổi" - nước chảy như texture, đối tượng biến dạng khi camera di chuyển, bóng không logic. Omni hiểu vật lý:
- Gravity: Các vật rơi với trọng lượng chính xác
- Kinetic energy: Động lượng được bảo toàn trong va chạm
- Fluid dynamics: Nước, khí, chất lỏng hành động tự nhiên
- Lighting continuity: Bóng dịch chuyển đúng khi thay đổi ánh sáng
- Spatial anatomy: Nhân vật giữ tỷ lệ cơ thể nhất quán
Kết quả: video trông chân thật hơn, phù hợp với thế giới thực.
Khả năng 4: Avatar digital của bạn
Tính năng đột phá: tạo bản sao kỹ thuật số của chính bạn chỉ trong 2 phút.
Quy trình setup:
- Camera training: Giữ điện thoại ngang tầm mắt dưới ánh sáng tốt, làm theo các cảnh nhắc trên màn hình để capture khuôn mặt từ nhiều góc
- Voice training: Đọc một loạt cụm từ ngẫu nhiên và các con số lên microphone, để mô hình capture ngữ điệu, giọng nói, và cách phát âm tự nhiên của bạn
- Activate: Nhấp "Use Avatar" - Google bảo mật nhúng bản sao vào tài khoản của bạn với tag @[tên người dùng]
Từ đó trở đi: avatar sống trong Gemini toolbox của bạn. Bạn không cần upload selfie hoặc video âm thanh lại nữa. Mỗi lần tạo video, chỉ gõ text hoặc prompt chat, rồi video mới sẽ có khuôn mặt + giọng nói của chính bạn.
An toàn: Chỉ chính bạn có thể dùng avatar của bạn. Bạn phải là người đứng trước camera khi setup. Mỗi video được nhúng watermark SynthID (không thể tắt).
So sánh với các đối thủ
vs OpenAI Sora
| Tiêu chí | Sora | Omni |
|---|---|---|
| Loại sinh hành vi | Text-to-video từ đầu | Conversational editor + multimodal |
| Độ dài video | Tối đa 60 giây | Tối đa 10 giây (hiện tại) - sẽ mở rộng |
| Input loại | Text + hình ảnh | Text + image + audio + video, cùng lúc |
| Chỉnh sửa | Tạo lại từ đầu | Chat: "thay cái này", "làm cái kia" |
| Avatar | Không | Có, built-in, 2 phút setup |
vs Google Veo (vẫn còn available)
Veo 3.1 là công cụ chuyên biệt để tạo video đẹp từ text - chất lượng hình ảnh, motion, realism. Omni là mô hình lập luận với video là một output - nó hiểu thế giới, blend đa input, edit qua conversation.
Chọn cái nào? Veo nếu bạn muốn chất lượng cao từ một brief. Omni nếu bạn muốn chỉnh sửa lặp lại, avatar, hay input phức tạp.
vs HeyGen, Synthesia
Các platform này chuyên về avatar lip-sync - bạn record giọng, rồi chúng animate avatar match hành động môi.
Omni khác: avatar là native feature của một hệ thống lập luận + tạo media. Bạn không chỉ record + animate - bạn có thể prompt: "Avatar mình hát bài này" hay "Avatar mình giải thích khái niệm lượng tử", rồi Omni tạo toàn bộ video liền mạch.
Bảng giá và tính khả dụng
Giá theo platform
| Platform | Giá | Tính năng |
|---|---|---|
| YouTube Shorts | Miễn phí | Omni Flash đầy đủ |
| YouTube Create App | Miễn phí | Cùng |
| Google AI Plus | $7.99/tháng | Gemini app + Google Flow; 2x usage limits; 200GB cloud |
| Google AI Pro | $19.99/tháng | 4x usage limits; 5TB storage; Deep Research |
| Google AI Ultra | $99.99/tháng | 5x Pro limits; 20TB storage; Tối nâng cao |
| Developer API | $0.20 + $0.10/sec | Sắp có (trong vài tuần); 720p-4K; 4-10 giây |
Khi nào có sẵn
- Omni Flash rolled out toàn cầu cho Google AI Plus/Pro/Ultra subscribers, Gemini app + Google Flow
- YouTube Shorts + YouTube Create app (miễn phí)
- Developer API access (enterprise + Google AI Studio)
Hạn chế hiện tại
- Độ dài video: 10 giây (deployment limit, không phải model limit)
- Audio output: Chỉ hỗ trợ voice references, không custom music/sound effects (sắp có)
- Speech editing: KHÔNG thể edit âm thanh trong video hiện có (deepfake mitigation) - sắp test
- Tuổi tối thiểu: 18+ bắt buộc
Các tính năng coming:
- Image generation output (không chỉ video)
- Audio/music generation
- Longer video formats (hơn 10 giây)
- Omni Pro model (thông báo nhưng chưa release date)
Ai nên dùng ngay?
Content creator / Influencer
Tại sao: Tạo video ở scale mà không cần setup camera/lighting mỗi lần. Avatar của bạn - giọng của bạn - nhưng bạn ở đâu cũng được, bất kỳ lúc nào. Sản xuất nhanh gấp 10 lần.
Trường hợp dùng: Daily shorts, intro/outro cho video, product review, tutorial, personalized content for different audiences.
Marketer / Nội dung marketing
Tại sao: Tạo nhiều phiên bản personalized của cùng một script - một version cho market A, một cho B. Avatar brand ambassador của bạn (hay chính người CEO). Script qua chat, video ra tự động.
Trường hợp dùng: Product demos, customer testimonials, regional marketing, A/B testing video variants.
Training / Corporate
Tại sao: Tạo training videos mà không cần quay hình người thật - privacy-preserving. Update nội dung qua chat, không cần reshoot. Scale tới nhiều ngôn ngữ (avatar cùng người, voice khác ngôn ngữ).
Trường hợp dùng: Onboarding, SOP video, internal comms, multilingual localization, compliance training.
Artist / Designer / Creative
Tại sao: Tool sáng tạo mới - chỉnh sửa video qua conversation thay vì timeline. World physics engine cho footage realistic.
Trường hợp dùng: Animation, visual effects mockup, creative exploration, style transfer experiments.
Kết
Gemini Omni Flash là bước tiến lớn trong AI video - không chỉ sinh video tốt, mà sinh video có lý luận, có bản sao digital của chính bạn, và chỉnh sửa bằng cuộc trò chuyện.
Giá? Miễn phí trên YouTube Shorts, $7.99/tháng cho Gemini app. Không cần công cụ riêng biệt, không cần học kỹ năng mới - chỉ chat và xem video nó đẻ ra.
Hạn chế hiện tại: 10 giây (sẽ mở rộng), không speech editing (sắp test). Nhưng khoảng trống đó sẽ đầy đủ nhanh.
Đáng thử? Tuyệt đối nếu bạn:
- Tạo content thường xuyên
- Cần video personalized ở scale
- Muốn giảm friction setup/reshoot
- Quan tâm AI avatar mà không deepfake concern (SynthID watermark bảo vệ)
Đăng ký Google AI Plus hoặc thử free trên YouTube Shorts ngay
