TL;DR

Ngày 23/4/2026, OpenAI tung GPT-5.5GPT-5.5 Pro, định nghĩa lại ChatGPT từ trợ lý hỏi-đáp thành tác nhân tự động thao tác máy tính. Model đạt 82.7% trên Terminal-Bench 2.0 (Claude Opus 4.7: 69.4%, Gemini 3.1 Pro: 68.5%), 84.9% ngang hoặc vượt người chuyên môn trên GDPval, và duy trì latency per-token ngang GPT-5.4 dù thông minh hơn. Rolling out ngay cho Plus/Pro/Business/Enterprise trên ChatGPT và Codex; Pro variant chỉ dành cho tier Pro trở lên. Free tier không có. API giá gấp đôi GPT-5.4 — sẽ ra "very soon".

Có gì mới

Greg Brockman, Chủ tịch OpenAI, mô tả GPT-5.5 là "một lớp trí tuệ mới cho công việc thực". Điểm then chốt: model không chỉ sinh văn bản trả lời, nó planning – sử dụng tool – tự kiểm tra kết quả – lặp lại cho tới khi hoàn thành task. Trong Codex, model giờ có thể tương tác với web app, bấm qua các trang, chụp screenshot, test flow và lặp cho tới khi task xong — không cần developer babysit từng bước.

Hai phiên bản cùng lúc:

  • GPT-5.5 – Plus, Pro, Business, Enterprise trên ChatGPT + Codex. Trong Codex có thêm Edu và Go, context window 400K tokens, có Fast mode tạo token nhanh hơn 1.5× với chi phí 2.5×.
  • GPT-5.5 Pro – Chỉ Pro, Business, Enterprise trong ChatGPT, nhắm công việc yêu cầu độ chính xác cao hơn.

Free tier bị loại. API chưa live ngay — OpenAI nói "very soon".

Vì sao quan trọng

Đây là cột mốc định vị chiến lược chứ không đơn thuần là bump version. OpenAI đang dịch chuyển ChatGPT từ một chatbot trả lời câu hỏi sang một workspace tự vận hành: người dùng giao mục tiêu, model lo phần còn lại. Brockman nói thẳng đây là bước kế hoạch tiến tới "super app" — hợp nhất ChatGPT, Codex và AI browser thành một dịch vụ duy nhất phục vụ enterprise.

Với developer, thay đổi rõ nhất nằm trong Codex: model tự viết, tự debug, tự mở browser test, tự nhìn UI và lặp — đây là "agentic coding" đúng nghĩa. Với knowledge worker, GPT-5.5 được benchmark trên 44 nghề thực tế (tài chính, pháp lý, product management…) và ngang hoặc thắng chuyên gia trong 84.9% trường hợp.

Số liệu kỹ thuật

BenchmarkGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%69.4%68.5%
SWE-Bench Pro58.6%64.3% (bị OpenAI nghi memorization)
BrowseComp (Pro variant)90.1%85.9%
GDPval (vs chuyên gia người)84.9% ngang/vượt

Thêm vài điểm đáng chú ý:

  • Latency per-token ngang GPT-5.4 — model lớn hơn thường chậm hơn, OpenAI phá logic này.
  • Token efficiency: hoàn thành task Codex với số token ít hơn đáng kể so với GPT-5.4. Sam Altman lập luận hiệu quả token bù cho giá cao hơn.
  • Artificial Analysis Index: xếp hạng thông minh nhất trung bình.
  • Expert-SWE (coding task dài, median 20 giờ người làm): vượt GPT-5.4.

So sánh giá API

ModelInput ($/1M token)Output ($/1M token)
GPT-5.5$5.00$30.00
GPT-5.5 Pro$30.00$180.00
GPT-5.4 (so sánh)$2.50$15.00
Xiaomi MiMo v2.5 Pro$1.00$3.00
Kimi K2.5$0.44$2.00

API giá gấp đôi GPT-5.4. OpenAI biện hộ bằng token efficiency, nhưng chênh lệch với các model Trung Quốc như Kimi K2.5 hay MiMo là rất lớn.

Use case thực

  • Agentic coding trong Codex: viết & debug code, duyệt web, test flow, chụp screenshot, iterate cho tới khi xong. Pietro Schirano, CEO MagicPath: "Thực sự cảm giác như đang làm việc với một trí tuệ cao hơn, gần như có sự tôn trọng".
  • Knowledge work: tạo tài liệu, xử lý spreadsheet, phân tích dữ liệu — model xử được instruction "lộn xộn" không cần prompt engineering tỉ mỉ.
  • Nghiên cứu khoa học: Mark Chen, Chief Research Officer, khẳng định model có "gains đáng kể" trên workflow research và có thể hỗ trợ drug discovery.
  • Enterprise workflow: giảm hẳn số vòng lặp human-in-the-loop khi chạy task phức tạp.

Hạn chế & an toàn

OpenAI tuyên bố đây là bộ safeguards mạnh nhất từ trước đến giờ: full safety & preparedness framework, redteamer nội bộ + ngoài, test riêng cho cybersecurity & biology, feedback từ ~200 đối tác early-access trước khi phát hành.

Vài điểm cần để ý:

  • Free tier không được chạm vào — rào cản rõ rệt cho người dùng phổ thông.
  • API chưa live — developer phải chờ.
  • Rollout không đều: Decrypt báo cáo model không lập tức xuất hiện trên Pro account dù đã "launch".
  • Thách thức cốt lõi: càng autonomous thì đòi hỏi độ tin cậy càng cao. Model tự click, tự gõ lệnh — một bước sai có thể tốn tiền thật.
  • SWE-Bench Pro còn thua Claude Opus 4.7 (58.6 vs 64.3), dù OpenAI cho rằng do Anthropic memorization.

Sắp tới

GPT-5.5 là "một bước trong nhiều bước" — Brockman nói thẳng. Jakub Pachocki, Chief Scientist OpenAI: "Chúng tôi thấy cải tiến đáng kể trong ngắn hạn và cực kỳ đáng kể trong trung hạn. Thực ra hai năm qua chậm một cách bất ngờ." Nhịp release đang tăng: GPT-5.3 → 5.4 chỉ cách 2 ngày, 5.4 → 5.5 khoảng 7 tuần.

Hướng đi rõ: deeper integration với software ecosystem, task horizon dài hơn, ít human intervention hơn — nói cách khác, AI đang chuyển từ "cái loa biết nói" sang "đồng nghiệp biết làm". Nếu bạn là developer, marketer, researcher hay operator, đây là điểm bản lề đáng nghiêm túc đánh giá lại workflow của mình.

Nguồn: OpenAI, TechCrunch, Decrypt, 9to5Mac, Digital Trends.