GPT-5.5 vừa ra mắt: 58.6% SWE-Bench Pro, 82.7% Terminal-Bench, vượt Opus 4.5 và Gemini 3.1 Pro trên agentic coding

TL;DR

Ngày 23/04/2026, OpenAI công bố GPT-5.5 — chỉ 6 tuần sau GPT-5.4. Điểm nổi bật: 58.6% trên SWE-Bench Pro, 82.7% trên Terminal-Bench 2.0, 73.1% trên Expert-SWE, context window 1M tokens, giá $5 / $30 per M tokens (input/output). Theo OpenAI, model vượt Claude Opus 4.5 và Gemini 3.1 Pro trên các bài test agentic coding. Greg Brockman gọi đây là "faster, sharper thinker for fewer tokens" — dùng ít token hơn 5.4 cho cùng khối lượng việc, tự chạy tool đến khi task hoàn thành, và tự verify output.

Có gì mới?

Thay vì chỉ "thông minh hơn," GPT-5.5 được định vị lại như một agent thực thi:

Tool-use đến khi xong: không dừng giữa chừng chờ hướng dẫn — nhìn vấn đề mơ hồ, tự quyết bước tiếp theo, chạy tới khi kết quả OK.
Self-verifying outputs: model tự kiểm tra đầu ra trước khi trả về.
Sharper với ít token hơn: cùng task, tốn ít token hơn 5.4 — giảm chi phí thật cho use case production.
Same speed: không đánh đổi độ trễ để lấy chất lượng.

Brockman mô tả đây là "một bước tiến về phía agentic computing" — và CEO Sam Altman nhắc lại tầm nhìn "super app" kết hợp ChatGPT + Codex + AI browser thành một dịch vụ thống nhất cho doanh nghiệp.

Vì sao đáng chú ý?

Tốc độ phát hành 6 tuần/model phản ánh áp lực cạnh tranh: Anthropic vừa tung Claude Mythos Preview tuần trước với khả năng cyber nâng cao, Google đẩy Gemini 3.1 Pro, và Kimi K2.6 từ Trung Quốc đang ép giá. Jakub Pachocki — Chief Scientist của OpenAI — thậm chí nói 2 năm qua "chậm một cách đáng ngạc nhiên," hứa hẹn "cải thiện rất lớn trong trung hạn."

Với team engineering đang dùng agent để code, chênh lệch 5–10 điểm trên SWE-Bench Pro không còn là con số trên giấy — đó là sự khác biệt giữa agent fix được PR end-to-end và agent dừng ở bước 3 chờ bạn can thiệp.

Số liệu kỹ thuật

Benchmark	GPT-5.5	GPT-5.4	Ghi chú
SWE-Bench Pro	58.6%	—	GitHub issue resolution
Terminal-Bench 2.0	82.7%	75.1%	Command-line workflows
Expert-SWE (internal)	73.1%	68.5%	Task coding ~20h
GDPval	84.9%	—	Real-world work
OSWorld-Verified	78.7%	—	Thao tác OS
Tau2-bench Telecom	98.0%	—	Không cần prompt tuning

Context window 1 triệu token. Safety: meets "High" cyber-risk classification nhưng không vượt ngưỡng "Critical."

So với đối thủ

Theo dữ liệu OpenAI công bố, GPT-5.5 vượt cả Gemini 3.1 Pro (Google) và Claude Opus 4.5 (Anthropic) trên loạt benchmark agentic coding. Lưu ý: bài tweet gốc đề cập "Claude Opus 4.7" — comparison chính thức của OpenAI cite Opus 4.5, nên coi là mốc đối chiếu đáng tin hơn.

Điểm khác biệt không chỉ là con số benchmark mà còn ở hành vi: 5.5 chạy tool liên tục đến khi task xong, trong khi nhiều agent hiện tại vẫn cần user thúc "continue" giữa chừng.

Ai được lợi nhất?

Dev & AI engineer: agentic coding trong Codex — viết, debug, refactor liên tục không gián đoạn. SWE-Bench Pro 58.6% nghĩa là gần 6/10 issue GitHub có thể fix end-to-end.
Enterprise knowledge worker: thao tác phần mềm, tạo/biên tập doc & spreadsheet, research online — OSWorld 78.7% cho thấy khả năng drive UI thật sự.
Nhà khoa học: Mark Chen (CRO) nhấn mạnh "meaningful gains on scientific and technical research workflows," bao gồm toán học và drug discovery.
Founder nhỏ: 1M context + token efficiency + $5/$30 pricing nghĩa là long-context workflows (phân tích codebase, báo cáo research dài) giờ rẻ hơn rõ rệt.

Giới hạn & giá

Pricing API: $5/M input tokens, $30/M output tokens. Bản GPT-5.5 Pro: $30/M input, $180/M output.
Context: 1M tokens.
API delay: ChatGPT & Codex có ngay từ 23/04; API phát hành "very soon" — OpenAI nói cần safeguard khác cho API.
Tier access ChatGPT: Plus, Pro, Business, Enterprise. GPT-5.5 Pro chỉ cho Pro/Business/Enterprise.
Rủi ro cyber: classification "High" — OpenAI red-team mở rộng, chưa đến ngưỡng "Critical" nhưng đáng lưu ý với team infosec.

Tiếp theo là gì?

OpenAI sẽ đưa GPT-5.5 lên API trong vài tuần tới. Brockman mô tả đây "chỉ là một bước" trên con đường agentic computing — kỳ vọng nhiều bước tiếp theo. Tầm nhìn dài hạn: một "super app" thống nhất ChatGPT, Codex và AI browser thành công cụ duy nhất cho enterprise. Với cadence 6 tuần/model và lời Pachocki về "cải thiện cực lớn trong trung hạn," khả năng cao GPT-5.6 hoặc bản refresh kế tiếp sẽ xuất hiện trước Q3 2026.

Nguồn: OpenAI, TechCrunch, CNBC, Fortune.

GPT-5.5 vừa ra mắt: 58.6% SWE-Bench Pro, 82.7% Terminal-Bench, vượt Opus 4.5 và Gemini 3.1 Pro trên agentic coding

TL;DR

Có gì mới?

Vì sao đáng chú ý?

Số liệu kỹ thuật

So với đối thủ

Ai được lợi nhất?

Giới hạn & giá

Tiếp theo là gì?

Tiếp tục lướt

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Qwen-Image Vừa Bẻ Khoá "Sharper Instruction Following" — Và Đây Không Phải Screenshot

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

Chandra OCR 2: Mô hình OCR open-source 4B đánh bại Gemini, dots.ocr và olmOCR

Codex giờ tự mở browser: build, click, debug frontend như một user thật