Lovable test GPT-5.5 early access: -23% tool calls, +12.5% điểm benchmark khó nhất

TL;DR

Ngày 23/04/2026, OpenAI chính thức phát hành GPT-5.5 — model mà Greg Brockman gọi là “faster, sharper thinker for fewer tokens”. Lovable, một trong ~200 early-access partner, public kết quả eval nội bộ sau khi cắm GPT-5.5 vào pipeline build app: -23.1% tool call/request, +10% khả năng phá băng khi gặp roadblock, +12.5% điểm trên benchmark khó nhất của họ — cùng cost. Đây là một trong những data point rõ nhất cho thấy token-efficiency mới của 5.5 chuyển thành lợi ích kinh tế thực với downstream platform, không chỉ marketing của OpenAI.

OpenAI GPT-5.5 launch hero

What's new

GPT-5.5 rơi xuống chỉ 7 tuần sau GPT-5.4 (5/3/2026), đi kèm hai biến thể: GPT-5.5 Thinking (câu trả lời ngắn, sắc hơn cho task khó) và GPT-5.5 Pro (độ khó + độ chính xác cao hơn, latency được tune). Rollout ngay Plus/Pro/Business/Enterprise trong ChatGPT và Codex, API thì “coming soon” vì OpenAI cần gắn thêm cybersecurity guardrails trước khi mở public.

Điểm khác biệt lớn nhất không nằm ở response quality kiểu chat — mà ở khả năng chạy multi-step workflow end-to-end: lập kế hoạch, gọi tools, tự verify output, xử lý prompt “messy” mà không cần user cầm tay. OpenAI gọi đây là “a new class of intelligence for real work”.

Lovable đo được gì

Trong tweet công bố, Lovable chia sẻ 3 con số từ eval pipeline riêng của họ:

-23.1% tool call per request — nghĩa là cùng 1 prompt build app, 5.5 gọi ít tool hơn gần một phần tư. Ít tool call = ít round-trip, ít latency, ít cost API.
+10% break-through roadblock — khi task gặp block (auth flow hỏng, real-time sync lỗi, multi-file edit conflict), 5.5 thoát được nhiều hơn 5.4.
+12.5% điểm trên benchmark khó nhất của Lovable — same cost. Đây là điểm mấu chốt: dù OpenAI tăng giá API gấp 2, Lovable vẫn đo được cost-per-successful-build ngang hoặc thấp hơn nhờ ít token/ít tool call.

Lovable định vị GPT-5.5 là “the most capable model for people taking on complex builds with technical depth” — tức dành cho builder thật, không phải prototype dạo.

Technical facts

Numbers từ OpenAI và benchmark bên thứ ba:

Metric	GPT-5.5	GPT-5.4
Terminal-Bench 2.0 (agentic coding)	82.7% (SOTA)	thấp hơn
SWE-Bench Pro (GitHub issues)	58.6%	thấp hơn
Codex context window	400K tokens	400K
API input price	$5.00 / 1M	$2.50 / 1M
API output price	$30.00 / 1M	$15.00 / 1M
Cached input	$0.50 / 1M	$0.25 / 1M
Fast mode	1.5× speed @ 2.5× cost	—

Per-token latency giữ bằng 5.4 — nhưng 5.5 dùng ít token hơn để hoàn thành cùng task. OpenAI cũng công bố 5.5 vượt Claude Opus 4.5 và Gemini 3.1 Pro trên nhiều benchmark, và theo Interesting Engineering, 5.5 “crushes” Claude Opus 4.7 ở agentic coding.

Greg Brockman, OpenAI President, discussing GPT-5.5

Why it matters

Giá API của 5.5 gấp 2 lần 5.4. Về mặt sticker shock, đây là upgrade đắt. Nhưng Lovable là data point thực tế đầu tiên cho thấy token-efficiency thực sự bù lại — thậm chí hơn — phần tăng giá. Với platform builder-first (Lovable, Cursor, Bolt, v0…), model nào “nghĩ gọn hơn” thắng, không phải model rẻ nhất per-token.

Hệ quả: các platform đang wrap GPT-5.4 hoặc Claude Opus 4.5 sẽ phải re-benchmark trên workload thật, không phải chỉ trên MMLU/HumanEval. Nếu 5.5 dùng ít tool call hơn 20%+, route của họ (plan → tool → verify → retry) sẽ ngắn lại, UX nhanh hơn, infra bill giảm.

Use cases

Agentic coding & app builders: auth flows, real-time sync, multi-file edit — “landing right the first time” theo Lovable CTO.
Long-horizon engineering: 5.5 ăn điểm trên task mà human dev mất ~20h để hoàn thành.
Enterprise data work: case study OpenAI kể review 24,771 K-1 tax form (71,000+ trang), cắt 2 tuần processing time.
Reporting tự động: weekly business report tiết kiệm 5–10h/tuần cho 1 team enterprise.
Scientific research: drug discovery, algebra workflow — Mark Chen nói model “help expert scientists make progress”.

Limitations & pricing

API chưa ready ngay — “coming soon” sau khi cybersecurity guardrails hoàn thiện. Dev chạy production cần chờ.
2× giá so 5.4: Input $5/1M, Output $30/1M. Task đơn giản (classify, summarize ngắn) chưa chắc cost-effective — 5.4 vẫn là default hợp lý.
Fast mode = 2.5× cost cho 1.5× tốc độ — chỉ dùng khi latency critical.
Free tier: không có. Rẻ nhất là Plus.
Cybersecurity/biology: OpenAI deploy với “strongest safeguards to date” — điều đó cũng có nghĩa một số capability có thể bị gate.

What's next

API public rollout là domino tiếp theo — khi đó các platform dạng Lovable, Cursor, Bolt sẽ đồng loạt re-eval và có thể default sang 5.5 cho tier paid. OpenAI cũng đang đẩy mạnh narrative “super app” — gộp ChatGPT + Codex + AI browser thành một interface duy nhất — và 5.5 chính là nền tảng model cho vision đó.

Với builder: nếu workload của bạn có nhiều tool call, nhiều bước verify, hoặc task loop dài — re-benchmark sớm. Con số -23% của Lovable không tự động áp vào app của bạn, nhưng order-of-magnitude của gain là real.

Nguồn: @Lovable (X), OpenAI, TechCrunch, Interesting Engineering, Digital Trends.

Lovable test GPT-5.5 early access: -23% tool calls, +12.5% điểm benchmark khó nhất

TL;DR

What's new

Lovable đo được gì

Technical facts

Why it matters

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

acpx 0.6.0: Điều khiển Claude và Codex qua một giao thức duy nhất

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

Codex giờ tự mở browser: build, click, debug frontend như một user thật

GPT-5.5 trên ParseBench: thắng bảng biểu, thua giá tiền — và Opus 4.7 vẫn dẫn về độ trung thực