- Koyal (YC) vừa ship FilmArena.ai — một arena blind-vote cho 40+ model ảnh/video SOTA và một sandbox gom mọi model vào một giao diện, một giá.
- 2M+ vote từ 190 quốc gia, re-rank mỗi tuần.
- GPT Image 2 dẫn image-editing, Nano Banana 2 vẫn thắng animated, Veo 3.1 Fast vượt bản full ở realistic.
TL;DR
FilmArena.ai (team Koyal, YC-backed) vừa ra mắt ngày 22–23/04/2026. Hai sản phẩm trong một: (1) arena benchmark blind-vote cho 40+ model ảnh/video SOTA, re-rank mỗi tuần với 2M+ vote từ 190 quốc gia, và (2) sandbox gom mọi model frontier vào một tab, cùng một giá — chạy một model hoặc 3 model song song để so sánh. Miễn phí dùng thử. Founder Mehul Agarwal gọi đây là "bản release lớn nhất từng ship".
What's new
Trong vài tháng qua, creative AI có một model SOTA mới mỗi tuần: GPT Image 2 của OpenAI ship hôm 21/04, Nano Banana 2 của Google DeepMind, Veo 3.1 / Veo 3.1 Fast, Dreamina Seedance 2, PixVerse C-1, HappyHorse-1.0 của Alibaba... Hơn 1000 endpoint tồn tại, nhưng không có câu trả lời trung thực nào cho câu hỏi "model nào tốt nhất ngay lúc này?"
FilmArena đưa ra lập luận thẳng: LMArena và Artificial Analysis đã crack bài toán benchmark LLM, nhưng với creative AI họ đang giải sai bài. Không tồn tại một "best image-to-video model" duy nhất — mỗi subcategory có winner khác nhau (world-building, action, expression, emotion, multi-character, object handling) và thứ hạng flip mỗi tuần khi model mới ship.
Why it matters
Vấn đề thực của creator hôm nay không phải là "model nào tốt" — mà là stack bị phân mảnh. Higgsfield và các aggregator khác gom model vào một chỗ, nhưng creator vẫn phải juggle cả chục subscription để hoàn thành một job duy nhất. Mỗi tool có tài khoản, quota, và phương thức thanh toán riêng.
FilmArena giải quyết bằng cách collapse stack thành một tab: một interface, một mức giá chung cho mọi frontier model trong sandbox. Gọi model tốt nhất, hoặc gọi 3 model cùng lúc để compare trực tiếp. Đồng thời, leaderboard liên tục refresh mỗi tuần để bạn biết hôm nay thực sự nên dùng model nào cho shot mình đang làm.
Technical facts
- 40+ model SOTA được benchmark — image generation, image editing, image-to-video (realistic + animated).
- 2M+ vote mù (blind) thu thập từ 190 quốc gia.
- Xếp hạng dùng mô hình Bradley–Terry dựa trên pairwise comparison, model ID ẩn khi voter bỏ phiếu.
- Subcategory leaderboard: Overall, Emotions, Multi-Character, High Movement, Object Handling, World Building.
- 3 chiều chấm điểm: Quality (visual fidelity & prompt adherence), Consistency (temporal coherence cho video / style stability cho image), Speed (throughput).
- Sandbox hỗ trợ so sánh tối đa 3 model song song, cùng một mức giá.
- API "Coming soon" — hiện chưa có programmatic access.
Comparison — tuần đầu launch
Kết quả leaderboard founder công bố cho tuần ra mắt (23/04/2026):
| Category | Winner | Ghi chú |
|---|---|---|
| Image editing | OpenAI GPT Image 2 | Ship 21/04/2026. Hit #1 mọi category Image Arena trong 12h (+242 Elo). |
| Animated image | Google Nano Banana 2 | Gemini 3.1 Flash Image. Text rendering + keyframe sequence mạnh. |
| Animated video | PixVerse C-1 | Vượt Dreamina Seedance 2 ở nhánh animated. |
| Realistic video | Veo 3.1 Fast | Rẻ hơn + nhanh hơn, vẫn outperform bản Veo 3.1 full. |
Lưu ý: trên Artificial Analysis, Alibaba HappyHorse-1.0 (Elo ~1,357) đang dẫn image-to-video tổng thể; Seedance 2 dẫn composite; Veo 3.1 Fast ở Elo ~1,085. Con số khác nhau vì methodology khác nhau — đó chính là điểm FilmArena muốn làm rõ: "tốt nhất" phụ thuộc vào subcategory.
Use cases
- Filmmaker & creator độc lập: pick đúng model cho từng shot — world-building dùng A, action dùng B, expression dùng C.
- Agency / studio nhỏ: gỡ stack 10–12 subscription thành một tab, một invoice.
- Model buyer / researcher: track leader week-over-week thay vì đọc 5 bài "X vs Y" đã cũ sau 7 ngày.
- Prompt engineer: chạy 3-model parallel compare để chốt winner cho prompt cụ thể.
Limitations & pricing
- Miễn phí dùng thử khi launch.
- API chưa có — chưa tích hợp pipeline được ngay.
- Bradley–Terry là human pairwise vote → kế thừa bias đám đông, không phải metric kỹ thuật thuần.
- Subcategory design cố tình bỏ qua khái niệm "best overall" — user phải xác định task trước khi tra leaderboard.
- Cơ chế giá chung cho mọi model trong sandbox chưa công bố chi tiết — chưa rõ cost-structure dài hạn khi provider thay đổi giá gốc.
What's next
Theo roadmap founder chia sẻ: API public sắp mở, onboard tiếp các model mới ngay khi ship, duy trì refresh leaderboard hằng tuần. Với tốc độ hiện tại của thị trường — GPT Image 2 và Nano Banana 2 cùng trên bảng, Seedance 2 & HappyHorse đang kéo nhau về Elo top, Veo 3.1 Fast vừa leo lên — FilmArena về cơ bản đánh đúng timing: khi creator cần một nơi duy nhất để biết tuần này gọi model nào.
Dùng thử tại filmarena.ai. Nguồn: thread launch của Mehul Agarwal, Koyal @ YC, OpenAI GPT Image 2, Google Nano Banana 2, Artificial Analysis I2V leaderboard.

