GPT-5.5 truy bug Worker đến comment 'TODO(perf)' Kenton Varda viết 6 năm trước

TL;DR

Ngày 25/04/2026, Kenton Varda — Principal Engineer Cloudflare Workers, tác giả Cap'n Proto, ex-Google Protobuf v2 — đăng một meme conversation với GPT-5.5. Ông hỏi vì sao một Worker fail. Model trả lời: vì một corner case trong Cap'n Proto RPC, mô tả ở comment rpc.c++ dòng 2096 — comment Kenton tự viết 6 năm trước, gắn nhãn TODO(perf) nhưng thực ra là correctness bug. Mẩu tweet 3 dòng nhưng đặt đúng câu hỏi: AI coding model đã đọc xong toàn bộ git history của bạn chưa?

What's new — đoạn chat đáng chú ý

Nguyên văn (rút gọn):

Me: GPT 5.5, vì sao Worker này fail?
GPT 5.5: *thinks* Vì một deep corner case trong Cap'n Proto RPC, mô tả ở comment này bạn viết 6 năm trước, bạn nghĩ chỉ là perf issue nhưng thực tế ảnh hưởng correctness.

Mở file đó ở dòng tương ứng, comment Kenton viết là một TODO(perf) trong hàm acceptThirdParty — nói về temp message buffer cho ThirdPartyCompletion mà ông cảm thấy có thể tối ưu signature của connectToIntroduced(). Câu chuyện không xác nhận bug đó có thật hay không — nhưng cái vibe "AI bới ra TODO cũ kỹ chính tay tôi viết và bảo nó nguy hiểm" thì rất thực.

Why it matters

Ba lý do nó lan nhanh trong dev community:

Người chế ra hệ thống là người bị AI "giảng bài" lại. Kenton viết Cap'n Proto, viết Workers runtime — nếu có ai hiểu bug RPC thì là ông. AI vẫn nhìn ra góc khuất ông để lại.
Comment cổ là tín hiệu, không phải noise. Mọi codebase trên 3 năm đều đầy TODO, FIXME, HACK. Trước đây chúng được skip. Giờ model biến chúng thành đầu mối điều tra.
Debugging shift từ "đọc stack trace" sang "đọc lịch sử". Long-context model coi git blame + comment + design doc là cùng một input.

Technical facts về GPT-5.5

OpenAI ra mắt GPT-5.5 và GPT-5.5 Pro ngày 23/04/2026, rollout đồng thời lên ChatGPT (Plus, Pro, Business, Enterprise) và Codex. API mở "rất sớm" sau đó với context window 1M token, giá $5/M input và $30/M output. Một số con số đáng nhớ:

Benchmark	GPT-5.5	Ghi chú
SWE-Bench Verified	88.7%	Flagship coding metric
SWE-Bench Pro	58.6%	Claude Opus 4.7 dẫn 64.3%
Terminal-Bench 2.0	82.7%	SOTA, vượt Claude Mythos Preview
Expert-SWE	73.1%	Eval nội bộ OpenAI; 20h human-time/task; GPT-5.4 đạt 68.5%

OpenAI nói thẳng: "debugging cycles từng kéo dài nhiều ngày giờ rút xuống vài giờ." GPT-5.5 cùng latency với GPT-5.4 nhưng dùng ít token hơn cho cùng tác vụ Codex — nghĩa là cost per fix giảm.

Comparison: GPT-5.5 vs Claude Opus 4.7 vs GPT-5.4

Tiêu chí	GPT-5.5	Claude Opus 4.7	GPT-5.4
SWE-Bench Verified	88.7%	—	thấp hơn
SWE-Bench Pro	58.6%	64.3%	—
Terminal-Bench 2.0	82.7% (SOTA)	sát nút	—
Expert-SWE (long-horizon)	73.1%	—	68.5%
Context	1M	1M	1M
Input price	$5/M	$15/M	$5/M

Kết quả nhìn lệch nhưng đồng thuận một thứ: cả hai model đã chạm ngưỡng tìm bug trong production code mà human reviewer bỏ qua.

Use cases — ai hưởng lợi nhất

Library maintainer — đúng kịch bản Kenton: model đọc TODO/FIXME/perf hint và re-evaluate xem có phải correctness bug ngầm không.
Edge / distributed-systems dev — debug xuyên runtime + RPC + serialization, nơi stack trace không kể hết câu chuyện.
Onboarding legacy codebase — ngày 1 hỏi "vì sao module này thiết kế kỳ vậy?" và nhận câu trả lời truy ngược thiết kế 5–10 năm trước.
Security review — pattern y hệt: tìm assumption cũ trong auth/IPC code đã hết hợp lệ.
Code archaeology — viết PR description hay incident report bằng cách trace hành trình quyết định, không phải đoán mò.

Limitations & pricing

Vài điểm cần tỉnh táo:

Tweet là anecdote dạng meme, không phải reproducible eval. "Model tìm correctness bug từ TODO perf cũ" chưa có benchmark chuẩn.
88.7% SWE-Bench Verified không có nghĩa 88.7% trên codebase của bạn. Workers/distributed bug — đúng dạng Cap'n Proto — vẫn là vùng failure-rich.
Output token đắt gấp 6× input ($30 vs $5). Một agent trace dài (đọc git log, mở 20 file, viết patch + test) có thể tốn vài USD/lượt.
Hallucination risk vẫn còn: model có thể chỉ một file/dòng sai mà nghe rất thuyết phục. Luôn verify trước khi commit fix.

What's next

Trục thời gian gần: GPT-5.2 → 5.4 → 5.5 cho thấy mỗi 6 tháng, gap trên long-horizon coding benchmark thu hẹp đáng kể. Expert-SWE nhảy từ 68.5% lên 73.1% trong một vòng — vòng tiếp theo có thể cán mốc 80% trên tác vụ tương đương 20 giờ làm người. Khi đó, anecdote kiểu "Kenton vs comment cũ của Kenton" sẽ không còn là moment lan truyền mà thành workflow hằng ngày: review nightly mở mọi TODO cũ, model đề xuất nâng cấp/loại bỏ; CI gắn bot quét comment cổ tìm dấu hiệu correctness drift.

Bài học khô khan từ một dòng tweet: comment cũ của bạn không chết, chúng chờ một model đọc đủ context để hỏi lại.

Nguồn: @KentonVarda trên X, OpenAI, VentureBeat, TokenMix.

GPT-5.5 truy bug Worker đến comment 'TODO(perf)' Kenton Varda viết 6 năm trước

TL;DR

What's new — đoạn chat đáng chú ý

Why it matters

Technical facts về GPT-5.5

Comparison: GPT-5.5 vs Claude Opus 4.7 vs GPT-5.4

Use cases — ai hưởng lợi nhất

Limitations & pricing

What's next

Bài liên quan

Cursor 3.2 ra mắt /multitask: chạy song song nhiều subagent thay vì xếp hàng chờ

Claude Code 2.1.120: Ultrareview Goes Headless, Plus a Critical Bash-Tool Crash Fix

Codex giờ tự mở browser: build, click, debug frontend như một user thật