OpenGame: 1 câu prompt, ra nguyên project game web chơi được luôn

TL;DR

OpenGame là framework open-source đầu tiên được thiết kế chuyên cho việc sinh game web end-to-end từ 1 câu prompt. Không phải snippet code rời — mà là nguyên cây project có engine, scene wiring, state xuyên file, chạy index.html là chơi. Do CUHK MMLab công bố ngày 21/04/2026, kèm model GameCoder-27B open-weights và benchmark OpenGame-Bench đánh giá bằng VLM trong trình duyệt thật.

Đáng chú ý: OpenGame + Claude Sonnet 4.6 đạt state-of-the-art trên 150 prompt benchmark, vượt Cursor + Claude 4.6 tới +6.2 điểm Intent Alignment. GameCoder-27B chạy độc lập đã đánh bại GPT-5.1 và Gemini 3.1 Pro ở Build Health và Intent Alignment — dù nhẹ hơn nhiều lần.

Có gì mới

LLM hiện đại giải task code đơn lẻ rất ngon, nhưng mỗi khi yêu cầu viết nguyên cái game chơi được thì sụp — cross-file inconsistency, scene wiring đứt, state desync logic. Paper gọi đây là khoảng cách giữa "code compile được" và "game chơi được". OpenGame lấp khoảng đó bằng hai trụ:

Game Skill framework — gồm Template Skill (thư viện project skeleton đã được chạy kiểm) và Debug Skill (living protocol chứa các pattern fix đã verify). Thay vì bịa từ trang trắng, agent scaffold lên bộ xương mature và sửa lỗi integration-level thay vì vá syntax.
GameCoder-27B — code LLM chuyên engine game, huấn luyện 3 giai đoạn trên backbone Qwen-3.5-27B: (1) Continual Pre-Training trên corpus game code, (2) Supervised Fine-Tuning với synthetic Game Design Document QA, (3) execution-grounded Reinforcement Learning — reward lấy từ việc chạy unit-test thật trên game sinh ra.

Cả hai tách bạch rõ: framework mang phần lớn giá trị (~70% headline number), model chỉ là cherry trên cake.

Technical facts

Điểm OpenGame-Bench (150 prompt, mỗi task chạy 3 seed lấy trung bình, thang 0–100):

System	Build Health	Visual Usability	Intent Alignment
Claude Sonnet 4.6 (raw)	58.5	50.8	50.3
qwen-code + Claude 4.6	63.2	54.3	57.8
Cursor + Claude 4.6	66.8	61.4	58.9
OpenGame + GameCoder-27B	63.9	57.0	54.1
OpenGame + Claude 4.6	72.4	67.2	65.1

Ba trục đo không phải lint cú pháp: Build Health check dự án compile + load + không lỗi runtime; Visual Usability kết hợp frame-entropy + motion + VLM judge về coherent, interactable; Intent Alignment là pass rate VLM đánh giá theo requirement spec tự sinh từ prompt gốc.

So sánh

OpenGame + Claude 4.6 vượt Cursor + Claude 4.6 đồng đều ba trục: +5.6 BH, +5.8 VU, +6.2 IA. Khoảng cách lớn nhất nằm ở Intent Alignment — nghĩa là template + scaffolding có structure giữ đúng mechanic user yêu cầu, thay vì agent nguyên khối "hallucinate" behavior engine.

Đáng chú ý hơn: GameCoder-27B (27B tham số, open-weights) vượt mọi baseline LLM trực tiếp — gồm GPT-5.1, Gemini 3.1 Pro, DeepSeek V3.2 — trên Build Health và Intent Alignment. Edge out cả qwen-code + Claude 4.6 (+0.7 BH, +2.7 VU). Tức một model nhỏ mở được train đúng domain có thể cạnh tranh ngang với framework agentic đắt tiền dùng backend closed-source.

Phân theo thể loại (Intent Alignment): Platformer 76.8, Top-Down Shooter 71.4, Arcade 66.5, Strategy 58.2, Puzzle/UI 52.6. Physics-centric game ngon vì OpenGame bind đúng collision layer, physics body, velocity vector. Game logic trừu tượng vẫn là Achilles heel — lỗi silent desync không trace được.

Use cases

Demo trên project page khá đa dạng:

Marvel Avengers side-scroller — chọn Iron Man / Thor / Hulk, 3 level, boss cuối Thanos
Harry Potter turn-based card — giải toán để cast phép, streak liên tiếp trigger "magic resonance"
Squid Game Red Light, Green Light — đứng yên khi robot quay đầu hoặc loại ngay
Star Wars Mandalorian dual-stick shooter RPG
Meow Star tower defense — tháp đại bác mèo bảo vệ kho cá hộp

Đối tượng dùng thực tế: indie dev prototype nhanh, team hackathon 48h, giáo viên làm demo tương tác, researcher nghiên cứu agentic code synthesis.

Cài và chạy

git clone https://github.com/leigest519/OpenGame.git
cd OpenGame
npm install && npm run build && npm link

opengame -p "Build a Snake clone with WASD controls and a dark theme." --yolo

Hỗ trợ OpenAI-compatible API (GPT-5.1, Claude Sonnet 4.6, Gemini 3.1 Pro, DeepSeek V3.2, Qwen-3.5-Max, MiniMax m2.5, GLM-4.5, Kimi K2.5) hoặc deploy GameCoder-27B local. Stack TypeScript 96%, built trên Phaser 3 + qwen-code agent runtime (fork từ Google Gemini CLI architecture). License Apache 2.0.

Limitations & pricing

Free, open-source, Apache 2.0. Không có paywall. Cần API key (OpenAI-compat) hoặc GPU local cho GameCoder-27B (~27GB VRAM FP8).

Nhưng đừng quá hype: ngay cả full OpenGame vẫn để lại 34.9% requirement mechanical chưa đạt. Zero-shot (T=0) BH chỉ 58.4 — vòng debug lặp là bắt buộc, không optional. Saturate khoảng T=3–5 iteration. Strategy và Puzzle/UI là vùng yếu: lỗi logic silent desync không trigger warning nào, khó auto-detect.

Kiểu ablation đáng chú ý: bỏ Template Method Pattern → rớt 10.1 điểm BH và 11.6 điểm IA ngay lập tức, lifecycle bug xuất hiện hàng loạt. Xác nhận scaffolding structure mới là "vũ khí thật", không phải bản thân model.

What's next

Về phía nghiên cứu, hướng mở rõ: mở rộng template archetype vượt 5 physics family hiện tại, xử lý silent logic desync bằng trace signal tổng hợp, có thể multi-agent cho game lớn hơn. Về phía cộng đồng, 555 star / 59 fork trong vài ngày là tốc độ adoption lành mạnh — phần lớn người test đang dùng Claude 4.6 backend cho chất lượng, nhưng GameCoder-27B mở đường cho self-host.

Câu hỏi thú vị hơn: nếu Template Skill + Debug Skill thực sự là thành phần mang gain, model nào agent cũng leverage được, thì đây có thể là pattern tái dùng được cho mọi domain code agent — không chỉ game. Vibe coding cho web app, mobile, data pipeline đều có thể học.

Nguồn: OpenGame project page (CUHK MMLab), GitHub repo, arXiv 2604.18394.

OpenGame: 1 câu prompt, ra nguyên project game web chơi được luôn

TL;DR

Có gì mới

Technical facts

So sánh

Use cases

Cài và chạy

Limitations & pricing

What's next

Tiếp tục lướt

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Mozilla ra mắt Thunderbolt — AI client mã nguồn mở chạy trên hạ tầng của chính bạn

DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ

DeepSeek V4 lộ diện: 1.6 nghìn tỷ tham số, context 1M token, rẻ hơn GPT-5.5 gấp 7 lần

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới