// Posts#ai-video
Gemini Omni - Tạo video bằng Avatar của chính bạn với Google AI
#7642026-06-03

Gemini Omni - Tạo video bằng Avatar của chính bạn với Google AI

Gemini Omni Flash cho phép tạo video từ bất kỳ kết hợp text, ảnh, âm thanh và video nào. Tính năng avatar digital cho phép bạn tạo bản sao kỹ thuật số của chính mình chỉ trong 2 phút. Video được nhúng watermark SynthID để xác minh tính xác thực. Giá từ $7.99/tháng (Google AI Plus) hoặc miễn phí trên YouTube Shorts.

gemini-omniai-videoavatar
8 phút đọc
lanshu-awesome-ai-video-kit: Bộ công cụ prompt engineering AI video mã nguồn mở cho doanh nghiệp
#7422026-05-27

lanshu-awesome-ai-video-kit: Bộ công cụ prompt engineering AI video mã nguồn mở cho doanh nghiệp

lanshu-awesome-ai-video-kit là bộ công cụ open-source với 543 prompt đã kiểm tra thực tế trên 16 model AI video. GitHub Action tự động giám sát 32 endpoint chính thức mỗi tuần để đảm bảo prompt không bị lỗi thời. Bộ 7 Claude Code Skills tích hợp sẵn giúp tự động chọn model, dịch prompt và debug lỗi. Dự án đạt 228 stars sau vài ngày ra mắt, hoàn toàn miễn phí theo giấy phép MIT.

ai-videoprompt-engineeringopen-source
7 phút đọc
Gemini Omni: Model đầu tiên của Google tạo video từ bất cứ đầu vào nào
#7042026-05-20

Gemini Omni: Model đầu tiên của Google tạo video từ bất cứ đầu vào nào

Gemini Omni Flash ra mắt tại Google I/O ngày 19/05/2026, xử lý text, image, audio và video đồng thời trong một token space duy nhất - không phải ghép nhiều model riêng lẻ. Hai clip video có thể chiếm tới 86% daily quota của gói Google AI Pro. API dự kiến $0.10/giây (standard) và $0.30/giây (high-quality). Sora đã đóng consumer app tháng 4/2026 - Google và ByteDance đang dẫn đầu cuộc đua AI video 2026.

gemini-omnigoogle-deepmindai-video
6 phút đọc
GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI
#3562026-04-21

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

Một combo AI mới đang viral trên X: dùng GPT-Image-2 vẽ sơ đồ trajectory camera, đẩy sang Seedance 2.0 để render thành video 15 giây với góc máy chuẩn từng beat. Đây là cách hoạt động và vì sao nó nguy hiểm cho video gen text-to-video truyền thống.

gpt-image-2seedance-2ai-video
7 phút đọc
Remotion vs Hyperframes: Cuộc Đua Tạo Video Bằng Code Trong Kỷ Nguyên AI Agent
#2522026-04-06

Remotion vs Hyperframes: Cuộc Đua Tạo Video Bằng Code Trong Kỷ Nguyên AI Agent

So sánh chi tiết 2 framework tạo video programmatic hàng đầu 2026 - Remotion (React) vs Hyperframes (HTML thuần, agent-first by HeyGen). Cùng prompt, cùng Opus 4.7, kết quả khác nhau. Đâu là lựa chọn đúng cho bạn?

remotionhyperframesheygen
7 phút đọc
LatentSync: ByteDance Open-Source Model Lip-Sync Tốt Nhất Hiện Tại
#1822026-03-08

LatentSync: ByteDance Open-Source Model Lip-Sync Tốt Nhất Hiện Tại

LatentSync của ByteDance đạt 94% SyncNet accuracy trên HDTF, vượt qua Wav2Lip, DINet, MuseTalk về mọi chỉ số chất lượng. Chỉ cần 8GB VRAM để chạy inference, hoàn toàn miễn phí và open-source. Dựa trên Stable Diffusion 1.5 với cơ chế TREPA độc quyền giúp giữ temporal consistency mà không làm giảm độ chính xác lip-sync.

latentsyncbytedancelip-sync
6 phút đọc
ViMax: Framework AI Tạo Video Tự Động Từ Một Câu Lệnh, Mã Nguồn Mở Từ HKU
#1692026-02-28

ViMax: Framework AI Tạo Video Tự Động Từ Một Câu Lệnh, Mã Nguồn Mở Từ HKU

ViMax là framework AI mã nguồn mở từ Đại học Hong Kong, điều phối 12 agent chuyên biệt để tạo video dài nhiều phút với nhân vật nhất quán hoàn toàn tự động. Tiết kiệm 40-60% thời gian sản xuất so với làm thủ công, rút ngắn từ 10-12 ngày xuống còn 4-5 ngày. Hoàn toàn miễn phí theo giấy phép MIT, hơn 8.100 stars trên GitHub.

ai-videoopen-sourcemulti-agent
6 phút đọc
ComfyUI-Workflows-ZHO: Bộ sưu tập workflow số 1 thế giới dành cho video editor
#0772025-05-08

ComfyUI-Workflows-ZHO: Bộ sưu tập workflow số 1 thế giới dành cho video editor

ComfyUI-Workflows-ZHO của ZHO là bộ sưu tập hơn 54 workflow ComfyUI miễn phí, đạt 5.000 stars trên GitHub - lớn nhất toàn cầu trong phân khúc open-source. 23 danh mục từ FLUX.1, SD3, 3D generation đến video synthesis và LLM integration. Hoàn toàn miễn phí theo GPL v3.0.

comfyuistable-diffusionflux
7 phút đọc
ComfyUI_PuLID_Flux_ll: Giải quyết model pollution và tự do thương mại với FaceNet
#0762025-05-08

ComfyUI_PuLID_Flux_ll: Giải quyết model pollution và tự do thương mại với FaceNet

ComfyUI_PuLID_Flux_ll giải quyết triệt để vấn đề model pollution trong PuLID Flux gốc - nhân vật chèn vào không còn làm hỏng style và ánh sáng ảnh. FaceNet thay thế InsightFace, xóa bỏ hoàn toàn ràng buộc ArcFace license cho dự án thương mại. Chạy được trên GPU 16GB với fp8 + offload, hỗ trợ TeaCache và WaveSpeed tăng tốc inference. Dựa trên PuLID - phương pháp face identity customization tuning-free được chấp nhận tại NeurIPS 2024.

comfyuifluxface-identity
6 phút đọc