- Một run thực tế: Deepseek V4 Pro rẻ hơn 4.3 lần và sinh ra gấp đôi token, nhưng GPT-5.5 mới là model làm ra game karting có chất lượng, visual và creative direction tốt hơn.
- Đọc breakdown chi phí, tốc độ và ý nghĩa thực tế cho dev.
TL;DR
Cùng một prompt làm game karting, chạy qua hai model vừa ra mắt cuối tháng 4/2026: Deepseek V4 Pro và GPT-5.5. Kết quả từ @atomic_chat_hq: V4 Pro tốn $0.07656, GPT-5.5 tốn $0.33063 — rẻ hơn 4.3 lần. V4 Pro cũng sinh gấp gần 2 lần token (18,869 so với 10,580). Nhưng khi mở game ra chơi thử, GPT-5.5 mới là bên làm ra product chỉn chu hơn: visual đẹp hơn, creative direction rõ hơn, polish cao hơn. Bài học: token rẻ không tự biến thành game hay.
Chuyện gì vừa xảy ra
Ngày 23/4/2026, OpenAI ra GPT-5.5 — base model retrain hoàn toàn đầu tiên kể từ GPT-4.5, omnimodal (text, image, audio, video trong một model duy nhất), context 1M token. Đúng một ngày sau, DeepSeek tung V4 Preview: hai model MoE, V4-Flash 284B và V4-Pro 1.6T total params (49B active), đều open-weights MIT, context 1M token.
Cộng đồng lập tức muốn biết: với cùng một yêu cầu sản phẩm thực tế — làm game karting — con nào cho output xài được hơn? @atomic_chat_hq chạy thử và công bố kết quả ngày 24/4.
Số liệu run: cost, speed, tokens
| Chỉ số | Deepseek V4 Pro | GPT-5.5 |
|---|---|---|
| Cost / run | $0.07656 | $0.33063 |
| Throughput | 34 tok/s | 25 tok/s |
| Thời gian hoàn thành | 9 phút 5 giây | 7 phút 5 giây |
| Tokens output | 18,869 | 10,580 |
Đọc ngang bảng: V4 Pro token rẻ hơn nhiều (giá niêm yết $3.48/M output so với GPT-5.5 $30/M output), chạy nhanh hơn mỗi token, và viết nhiều hơn. Nhưng GPT-5.5 lại hoàn thành task sớm hơn 2 phút vì cần ít token hơn để giải quyết vấn đề — đó là tín hiệu đầu tiên cho thấy V4 Pro đang dành effort vào chỗ không đổi thành giá trị cuối.
Kết quả chơi thử: GPT-5.5 thắng rõ
Đây mới là phần quan trọng. @atomic_chat_hq mô tả game của GPT-5.5 có đồ hoạ tốt hơn, visual polish cao hơn, creative direction chặt hơn và overall execution mạnh hơn. V4 Pro vấp đúng vào ba điểm đó: graphics yếu, visual thô, thiếu ý tưởng dẫn dắt.
Điều này đặc biệt đáng chú ý vì V4 Pro được DeepSeek định vị là model mạnh về coding — và đúng là ở nhiều benchmark coding thuần (LiveCodeBench 93.5, Codeforces Elo 3206) nó đang dẫn đầu. Nhưng karting không phải LeetCode. Nó là một task end-to-end cần tư duy game design, cảm quan thẩm mỹ, asset choreography — phần mà omnimodal + agentic capabilities của GPT-5.5 phát huy.
Vì sao điều này quan trọng với dev
Rẻ hơn 4.3 lần nghe rất hấp dẫn — tương đương với việc bạn có thể thử prompt 4 lần với V4 Pro cho bằng 1 lần GPT-5.5. Với một pipeline iterative (sinh → review → sửa → tái sinh), lợi thế giá của DeepSeek có thể lật ngược bàn cờ.
Nhưng nếu bạn đang cần một artifact shippable ngay từ lần đầu — một game demo cho Product Hunt, một MVP cho nhà đầu tư xem cuối tuần — thì trả thêm $0.25 để có creative direction tử tế là deal tốt. Chi phí thời gian sửa sau (re-art, re-polish) thường vượt xa chi phí token.
Benchmark so sánh rộng hơn
Ngoài karting, bức tranh tổng thể giữa hai model:
- Terminal-Bench 2.0 (agentic coding): GPT-5.5 đạt 82.7%, cao hơn GPT-5.4 7.6 điểm.
- SWE-Bench Verified: V4 Pro 80.6% bám sát Claude Opus 4.6 (80.8%). GPT-5.5 dẫn SWE-Bench Pro với 58.6% single-pass.
- LiveCodeBench: V4 Pro 93.5 (#1 toàn cầu).
- Codeforces Elo: V4-Pro-Max 3206, vượt GPT-5.4 xHigh.
- FrontierMath Tier 4: GPT-5.5 35.4%, GPT-5.5-pro 39.6%.
- MRCR v2 ở 1M token: GPT-5.5 74.0% — gấp đôi GPT-5.4.
Pattern rõ ràng: V4 thắng ở coding thuần tuý và cost-efficiency; GPT-5.5 thắng ở agentic, long-context reasoning, omnimodal và các task có yếu tố creative.
Khi nào chọn con nào
Chọn GPT-5.5 khi: cần visual polish, output đa phương tiện, agentic workflow thật sự (điều khiển browser, chạy tools), hoặc bất kỳ task end-to-end nào mà creative direction quan trọng hơn token economics. Làm demo game, prototype UI, đoạn video promo — GPT-5.5.
Chọn Deepseek V4 Pro khi: khối lượng coding lớn, bài toán algorithmic, batch job long-context, self-host open-weights, hoặc pipeline cần nhiều lần thử với budget hạn chế. CI bot, mass refactor, research crawler — V4 Pro.
Hạn chế & lưu ý khi đọc kết quả
Đây là một run duy nhất, không có ý nghĩa thống kê. Prompt karting gốc cũng không public trong snippet — chất lượng đánh giá phần nhiều qualitative. V4 là text-only, không sinh sprite / audio / đọc video được — đó là handicap cấu trúc trong mọi task gamedev asset-heavy, không phải lỗi của model. Simon Willison ghi nhận V4 "trail state-of-the-art frontier models by approximately 3 to 6 months" ở knowledge benchmarks.
Next steps cho bạn
Cách tốt nhất không phải đọc benchmark — là tự chạy cùng prompt karting trên model bạn đang dùng (Claude Opus 4.7, Gemini 3.0 Pro, Qwen, Kimi, Grok...) và so sánh artifact cuối. Tính ra ROI thật: cost / polish / time-to-ship. Post kết quả lại cho cộng đồng.
Nguồn: @atomic_chat_hq, OpenAI, DeepSeek API Docs, Simon Willison, TechCrunch.
