- OpenAI công bố GPT-5.5 vào 23/04/2026 — lần retrain nền đầu tiên kể từ GPT-4.5.
- Perplexity là khách hàng đầu tiên lên tiếng với hai con số đáng chú ý: dựng xong một công cụ nội bộ trong chưa đầy 1 giờ và cắt 56% token trên cùng tác vụ phức tạp trong Perplexity Computer.
- Cộng với benchmark Terminal-Bench 82.7%, đây là bằng chứng cụ thể nhất cho lời hứa agentic coding của OpenAI.
TL;DR
GPT-5.5 — frontier model mới của OpenAI ra mắt ngày 23/04/2026 — vừa có case study thực tế đầu tiên từ Perplexity: xây xong một công cụ nội bộ trong dưới 1 giờ qua Codex, và dùng ít hơn 56% token trên cùng các tác vụ phức tạp trong Perplexity Computer so với mô hình cũ. Con số này nằm trên trung bình 40% mà OpenAI công bố cho Codex, cho thấy với workload agentic đủ nặng, hiệu suất token có thể vượt xa mức kỳ vọng chung.
Điều gì vừa xảy ra?
Ngày 23/04/2026, OpenAI phát hành GPT-5.5 và GPT-5.5 Pro — lần retrain từ đầu đầu tiên của base model kể từ GPT-4.5 (các bản 5.1–5.4 đều chỉ là post-training iteration). Cùng ngày, mô hình được tích hợp vào Codex qua CLI (codex --model gpt-5.5), IDE extension và app, kèm theo tính năng browser mới cho Codex có thể click qua UI và reproduce visual bug.
Ngay trong 24 giờ đầu, OpenAI Devs đăng case study của Perplexity: kỹ sư tại đây dùng GPT-5.5 trong Codex để dựng một công cụ nội bộ trong chưa đầy một tiếng. Trong Perplexity Computer — workflow agent thao tác trên máy — GPT-5.5 tiêu thụ ít hơn 56% token trên cùng tác vụ phức tạp, rút ngắn đáng kể vòng feedback cho người dùng.
Vì sao đáng chú ý?
Giá GPT-5.5 gấp đôi GPT-5.4 ($5/$30 so với $2.50/$15 cho 1M token input/output). Nếu nhìn giá thô, có vẻ như một bước lùi cho người dùng. Nhưng nếu mô hình dùng ít token hơn để hoàn thành cùng một việc, chi phí hiệu dụng mới là thứ đáng quan tâm.
OpenAI công bố trung bình 40% ít token output hơn trên Codex, đủ để offset ~50% mức tăng giá. Con số 56% từ Perplexity — workload nặng về agent điều khiển máy tính — cho thấy ở các case agentic phức tạp, chi phí vận hành thực tế có thể ngang hoặc thấp hơn GPT-5.4, trong khi mô hình thông minh hơn rõ rệt.
Những con số đáng nhớ
| Benchmark / Metric | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% |
| SWE-Bench Pro | 58.6% | — | 64.3% |
| GDPval (knowledge work) | 84.9% | — | — |
| OSWorld-Verified (desktop) | 78.7% | — | — |
| AA Intelligence Index | 60 (#1) | — | — |
| Input / Output (per 1M tokens) | $5 / $30 | $2.50 / $15 | — |
Điểm cộng lớn: Terminal-Bench 2.0 82.7% — SOTA cho workflow multi-tool, hơn GPT-5.4 7.6 điểm và cao hơn Opus 4.7 tới 13 điểm. Context window lên 1M token trên API (400K trong Codex, đánh đổi throughput/chi phí). Latency per-token giữ ngang GPT-5.4 dù năng lực tăng.
Ai hưởng lợi nhiều nhất?
- Đội engineer dựng tool nội bộ nhanh: Perplexity là ví dụ điển hình — prompt → công cụ chạy được trong 1 giờ. Không còn là demo cherry-picked, đây là nội bộ chạy production.
- Workflow agentic nặng tool-use: Perplexity Computer, QA automation, ops runbook — nơi agent cần lặp nhiều bước, 56% token tiết kiệm = feedback loop nhanh hơn và chi phí thấp hơn.
- Triển khai quy mô lớn: NVIDIA deploy cho hơn 10.000 kỹ sư, báo cáo chu kỳ debug rút từ "ngày xuống giờ".
- Refactor, test generation, validation, knowledge-work artifact — OpenAI liệt kê rõ trong Codex changelog là sweet spot của GPT-5.5.
Giới hạn & cân nhắc
GPT-5.5 không phải drop-in cho mọi task. Ba điểm cần biết trước khi nâng cấp:
- Hallucination cao bất thường: AA-Omniscience ghi nhận 86% — cao hơn nhiều Claude Opus 4.7 (36%). Điểm agentic mạnh không đồng nghĩa tin được về fact retrieval. Với knowledge base thật, vẫn cần RAG và verification layer.
- SWE-Bench Pro 58.6% — thấp hơn Opus 4.7 (64.3%) cho bài toán resolve GitHub issue thuần. Nếu workload của bạn nặng pure code-fix trên repo thật, test trước khi cam kết.
- Giá Pro rất chát: $30/$180 cho 1M token — chỉ hợp lý khi tác vụ thật sự cần Pro tier hoặc context dài 1M.
Tiếp theo là gì?
OpenAI đang đóng khung GPT-5.5 như bước tiến tới super app hợp nhất ChatGPT + Codex + browser cho doanh nghiệp. Với base model mới tinh và infra GB200 NVL72 (OpenAI tự nhận 35× rẻ hơn/token và 50× throughput/megawatt), dư địa iterate post-training sẽ còn kéo dài. Case study Perplexity là phát súng đầu — các công ty có workload agentic dày đặc sẽ là người đầu tiên benchmark lại mô hình hoá đơn của mình trong vài tuần tới.
Nếu bạn đang chạy Codex hoặc đang xây pipeline agentic, câu hỏi thực dụng: thử lại prompt cũ với gpt-5.5, đo token/task, rồi quyết định. Con số 56% của Perplexity có thể không lặp lại, nhưng 30–40% thì rất khả thi.
Nguồn: OpenAI — Introducing GPT-5.5, Codex Changelog, OpenAI Devs (X), TechCrunch.
