FilmArena.ai ra mắt: Benchmark cho AI sáng tạo + sandbox 40+ model trong một tab

TL;DR

FilmArena.ai (team Koyal, YC-backed) vừa ra mắt ngày 22–23/04/2026. Hai sản phẩm trong một: (1) arena benchmark blind-vote cho 40+ model ảnh/video SOTA, re-rank mỗi tuần với 2M+ vote từ 190 quốc gia, và (2) sandbox gom mọi model frontier vào một tab, cùng một giá — chạy một model hoặc 3 model song song để so sánh. Miễn phí dùng thử. Founder Mehul Agarwal gọi đây là "bản release lớn nhất từng ship".

What's new

Trong vài tháng qua, creative AI có một model SOTA mới mỗi tuần: GPT Image 2 của OpenAI ship hôm 21/04, Nano Banana 2 của Google DeepMind, Veo 3.1 / Veo 3.1 Fast, Dreamina Seedance 2, PixVerse C-1, HappyHorse-1.0 của Alibaba... Hơn 1000 endpoint tồn tại, nhưng không có câu trả lời trung thực nào cho câu hỏi "model nào tốt nhất ngay lúc này?"

FilmArena đưa ra lập luận thẳng: LMArena và Artificial Analysis đã crack bài toán benchmark LLM, nhưng với creative AI họ đang giải sai bài. Không tồn tại một "best image-to-video model" duy nhất — mỗi subcategory có winner khác nhau (world-building, action, expression, emotion, multi-character, object handling) và thứ hạng flip mỗi tuần khi model mới ship.

Why it matters

Vấn đề thực của creator hôm nay không phải là "model nào tốt" — mà là stack bị phân mảnh. Higgsfield và các aggregator khác gom model vào một chỗ, nhưng creator vẫn phải juggle cả chục subscription để hoàn thành một job duy nhất. Mỗi tool có tài khoản, quota, và phương thức thanh toán riêng.

FilmArena giải quyết bằng cách collapse stack thành một tab: một interface, một mức giá chung cho mọi frontier model trong sandbox. Gọi model tốt nhất, hoặc gọi 3 model cùng lúc để compare trực tiếp. Đồng thời, leaderboard liên tục refresh mỗi tuần để bạn biết hôm nay thực sự nên dùng model nào cho shot mình đang làm.

Technical facts

40+ model SOTA được benchmark — image generation, image editing, image-to-video (realistic + animated).
2M+ vote mù (blind) thu thập từ 190 quốc gia.
Xếp hạng dùng mô hình Bradley–Terry dựa trên pairwise comparison, model ID ẩn khi voter bỏ phiếu.
Subcategory leaderboard: Overall, Emotions, Multi-Character, High Movement, Object Handling, World Building.
3 chiều chấm điểm: Quality (visual fidelity & prompt adherence), Consistency (temporal coherence cho video / style stability cho image), Speed (throughput).
Sandbox hỗ trợ so sánh tối đa 3 model song song, cùng một mức giá.
API "Coming soon" — hiện chưa có programmatic access.

Comparison — tuần đầu launch

Kết quả leaderboard founder công bố cho tuần ra mắt (23/04/2026):

Category	Winner	Ghi chú
Image editing	OpenAI GPT Image 2	Ship 21/04/2026. Hit #1 mọi category Image Arena trong 12h (+242 Elo).
Animated image	Google Nano Banana 2	Gemini 3.1 Flash Image. Text rendering + keyframe sequence mạnh.
Animated video	PixVerse C-1	Vượt Dreamina Seedance 2 ở nhánh animated.
Realistic video	Veo 3.1 Fast	Rẻ hơn + nhanh hơn, vẫn outperform bản Veo 3.1 full.

Lưu ý: trên Artificial Analysis, Alibaba HappyHorse-1.0 (Elo ~1,357) đang dẫn image-to-video tổng thể; Seedance 2 dẫn composite; Veo 3.1 Fast ở Elo ~1,085. Con số khác nhau vì methodology khác nhau — đó chính là điểm FilmArena muốn làm rõ: "tốt nhất" phụ thuộc vào subcategory.

Use cases

Filmmaker & creator độc lập: pick đúng model cho từng shot — world-building dùng A, action dùng B, expression dùng C.
Agency / studio nhỏ: gỡ stack 10–12 subscription thành một tab, một invoice.
Model buyer / researcher: track leader week-over-week thay vì đọc 5 bài "X vs Y" đã cũ sau 7 ngày.
Prompt engineer: chạy 3-model parallel compare để chốt winner cho prompt cụ thể.

Limitations & pricing

Miễn phí dùng thử khi launch.
API chưa có — chưa tích hợp pipeline được ngay.
Bradley–Terry là human pairwise vote → kế thừa bias đám đông, không phải metric kỹ thuật thuần.
Subcategory design cố tình bỏ qua khái niệm "best overall" — user phải xác định task trước khi tra leaderboard.
Cơ chế giá chung cho mọi model trong sandbox chưa công bố chi tiết — chưa rõ cost-structure dài hạn khi provider thay đổi giá gốc.

What's next

Theo roadmap founder chia sẻ: API public sắp mở, onboard tiếp các model mới ngay khi ship, duy trì refresh leaderboard hằng tuần. Với tốc độ hiện tại của thị trường — GPT Image 2 và Nano Banana 2 cùng trên bảng, Seedance 2 & HappyHorse đang kéo nhau về Elo top, Veo 3.1 Fast vừa leo lên — FilmArena về cơ bản đánh đúng timing: khi creator cần một nơi duy nhất để biết tuần này gọi model nào.

Dùng thử tại filmarena.ai. Nguồn: thread launch của Mehul Agarwal, Koyal @ YC, OpenAI GPT Image 2, Google Nano Banana 2, Artificial Analysis I2V leaderboard.

FilmArena.ai ra mắt: Benchmark cho AI sáng tạo + sandbox 40+ model trong một tab

TL;DR

What's new

Why it matters

Technical facts

Comparison — tuần đầu launch

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Codex + gpt-image-2: workflow viết PRD → vẽ UI → code SwiftUI "god-tier fidelity"

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

OpenClaw v2026.4.23: gpt-image-2 qua Codex OAuth, OpenRouter image_generate, và hint thống nhất

Codex + gpt-image-2 đẻ ra sprite sheet game 2D từ một dòng prompt: agent-sprite-forge mở màn

Khi UI biết bắt sáng: pipeline 3 bước gpt-image-2 + normal map của @pwnies