- CUHK MMLab vừa mở mã OpenGame — framework agentic đầu tiên biến 1 câu mô tả thành project game web đầy đủ engine, real-time loop và state xuyên file.
- Ăn đứt Cursor + Claude Sonnet 4.6 trên benchmark 150 prompt.
- GameCoder-27B open-weights đi kèm đã vượt GPT-5.1 và Gemini 3.1 Pro ở hai chỉ số chính.
TL;DR
OpenGame là framework open-source đầu tiên được thiết kế chuyên cho việc sinh game web end-to-end từ 1 câu prompt. Không phải snippet code rời — mà là nguyên cây project có engine, scene wiring, state xuyên file, chạy index.html là chơi. Do CUHK MMLab công bố ngày 21/04/2026, kèm model GameCoder-27B open-weights và benchmark OpenGame-Bench đánh giá bằng VLM trong trình duyệt thật.
Đáng chú ý: OpenGame + Claude Sonnet 4.6 đạt state-of-the-art trên 150 prompt benchmark, vượt Cursor + Claude 4.6 tới +6.2 điểm Intent Alignment. GameCoder-27B chạy độc lập đã đánh bại GPT-5.1 và Gemini 3.1 Pro ở Build Health và Intent Alignment — dù nhẹ hơn nhiều lần.
Có gì mới
LLM hiện đại giải task code đơn lẻ rất ngon, nhưng mỗi khi yêu cầu viết nguyên cái game chơi được thì sụp — cross-file inconsistency, scene wiring đứt, state desync logic. Paper gọi đây là khoảng cách giữa "code compile được" và "game chơi được". OpenGame lấp khoảng đó bằng hai trụ:
- Game Skill framework — gồm Template Skill (thư viện project skeleton đã được chạy kiểm) và Debug Skill (living protocol chứa các pattern fix đã verify). Thay vì bịa từ trang trắng, agent scaffold lên bộ xương mature và sửa lỗi integration-level thay vì vá syntax.
- GameCoder-27B — code LLM chuyên engine game, huấn luyện 3 giai đoạn trên backbone Qwen-3.5-27B: (1) Continual Pre-Training trên corpus game code, (2) Supervised Fine-Tuning với synthetic Game Design Document QA, (3) execution-grounded Reinforcement Learning — reward lấy từ việc chạy unit-test thật trên game sinh ra.
Cả hai tách bạch rõ: framework mang phần lớn giá trị (~70% headline number), model chỉ là cherry trên cake.
Technical facts
Điểm OpenGame-Bench (150 prompt, mỗi task chạy 3 seed lấy trung bình, thang 0–100):
| System | Build Health | Visual Usability | Intent Alignment |
|---|---|---|---|
| Claude Sonnet 4.6 (raw) | 58.5 | 50.8 | 50.3 |
| qwen-code + Claude 4.6 | 63.2 | 54.3 | 57.8 |
| Cursor + Claude 4.6 | 66.8 | 61.4 | 58.9 |
| OpenGame + GameCoder-27B | 63.9 | 57.0 | 54.1 |
| OpenGame + Claude 4.6 | 72.4 | 67.2 | 65.1 |
Ba trục đo không phải lint cú pháp: Build Health check dự án compile + load + không lỗi runtime; Visual Usability kết hợp frame-entropy + motion + VLM judge về coherent, interactable; Intent Alignment là pass rate VLM đánh giá theo requirement spec tự sinh từ prompt gốc.
So sánh
OpenGame + Claude 4.6 vượt Cursor + Claude 4.6 đồng đều ba trục: +5.6 BH, +5.8 VU, +6.2 IA. Khoảng cách lớn nhất nằm ở Intent Alignment — nghĩa là template + scaffolding có structure giữ đúng mechanic user yêu cầu, thay vì agent nguyên khối "hallucinate" behavior engine.
Đáng chú ý hơn: GameCoder-27B (27B tham số, open-weights) vượt mọi baseline LLM trực tiếp — gồm GPT-5.1, Gemini 3.1 Pro, DeepSeek V3.2 — trên Build Health và Intent Alignment. Edge out cả qwen-code + Claude 4.6 (+0.7 BH, +2.7 VU). Tức một model nhỏ mở được train đúng domain có thể cạnh tranh ngang với framework agentic đắt tiền dùng backend closed-source.
Phân theo thể loại (Intent Alignment): Platformer 76.8, Top-Down Shooter 71.4, Arcade 66.5, Strategy 58.2, Puzzle/UI 52.6. Physics-centric game ngon vì OpenGame bind đúng collision layer, physics body, velocity vector. Game logic trừu tượng vẫn là Achilles heel — lỗi silent desync không trace được.
Use cases
Demo trên project page khá đa dạng:
- Marvel Avengers side-scroller — chọn Iron Man / Thor / Hulk, 3 level, boss cuối Thanos
- Harry Potter turn-based card — giải toán để cast phép, streak liên tiếp trigger "magic resonance"
- Squid Game Red Light, Green Light — đứng yên khi robot quay đầu hoặc loại ngay
- Star Wars Mandalorian dual-stick shooter RPG
- Meow Star tower defense — tháp đại bác mèo bảo vệ kho cá hộp
Đối tượng dùng thực tế: indie dev prototype nhanh, team hackathon 48h, giáo viên làm demo tương tác, researcher nghiên cứu agentic code synthesis.
Cài và chạy
git clone https://github.com/leigest519/OpenGame.git
cd OpenGame
npm install && npm run build && npm link
opengame -p "Build a Snake clone with WASD controls and a dark theme." --yoloHỗ trợ OpenAI-compatible API (GPT-5.1, Claude Sonnet 4.6, Gemini 3.1 Pro, DeepSeek V3.2, Qwen-3.5-Max, MiniMax m2.5, GLM-4.5, Kimi K2.5) hoặc deploy GameCoder-27B local. Stack TypeScript 96%, built trên Phaser 3 + qwen-code agent runtime (fork từ Google Gemini CLI architecture). License Apache 2.0.
Limitations & pricing
Free, open-source, Apache 2.0. Không có paywall. Cần API key (OpenAI-compat) hoặc GPU local cho GameCoder-27B (~27GB VRAM FP8).
Nhưng đừng quá hype: ngay cả full OpenGame vẫn để lại 34.9% requirement mechanical chưa đạt. Zero-shot (T=0) BH chỉ 58.4 — vòng debug lặp là bắt buộc, không optional. Saturate khoảng T=3–5 iteration. Strategy và Puzzle/UI là vùng yếu: lỗi logic silent desync không trigger warning nào, khó auto-detect.
Kiểu ablation đáng chú ý: bỏ Template Method Pattern → rớt 10.1 điểm BH và 11.6 điểm IA ngay lập tức, lifecycle bug xuất hiện hàng loạt. Xác nhận scaffolding structure mới là "vũ khí thật", không phải bản thân model.
What's next
Về phía nghiên cứu, hướng mở rõ: mở rộng template archetype vượt 5 physics family hiện tại, xử lý silent logic desync bằng trace signal tổng hợp, có thể multi-agent cho game lớn hơn. Về phía cộng đồng, 555 star / 59 fork trong vài ngày là tốc độ adoption lành mạnh — phần lớn người test đang dùng Claude 4.6 backend cho chất lượng, nhưng GameCoder-27B mở đường cho self-host.
Câu hỏi thú vị hơn: nếu Template Skill + Debug Skill thực sự là thành phần mang gain, model nào agent cũng leverage được, thì đây có thể là pattern tái dùng được cho mọi domain code agent — không chỉ game. Vibe coding cho web app, mobile, data pipeline đều có thể học.
Nguồn: OpenGame project page (CUHK MMLab), GitHub repo, arXiv 2604.18394.

