TL;DR
Ngày 25/04/2026, Kenton Varda — Principal Engineer Cloudflare Workers, tác giả Cap'n Proto, ex-Google Protobuf v2 — đăng một meme conversation với GPT-5.5. Ông hỏi vì sao một Worker fail. Model trả lời: vì một corner case trong Cap'n Proto RPC, mô tả ở comment rpc.c++ dòng 2096 — comment Kenton tự viết 6 năm trước, gắn nhãn TODO(perf) nhưng thực ra là correctness bug. Mẩu tweet 3 dòng nhưng đặt đúng câu hỏi: AI coding model đã đọc xong toàn bộ git history của bạn chưa?
What's new — đoạn chat đáng chú ý
Nguyên văn (rút gọn):
Me: GPT 5.5, vì sao Worker này fail?
GPT 5.5: *thinks* Vì một deep corner case trong Cap'n Proto RPC, mô tả ở comment này bạn viết 6 năm trước, bạn nghĩ chỉ là perf issue nhưng thực tế ảnh hưởng correctness.
Mở file đó ở dòng tương ứng, comment Kenton viết là một TODO(perf) trong hàm acceptThirdParty — nói về temp message buffer cho ThirdPartyCompletion mà ông cảm thấy có thể tối ưu signature của connectToIntroduced(). Câu chuyện không xác nhận bug đó có thật hay không — nhưng cái vibe "AI bới ra TODO cũ kỹ chính tay tôi viết và bảo nó nguy hiểm" thì rất thực.
Why it matters
Ba lý do nó lan nhanh trong dev community:
- Người chế ra hệ thống là người bị AI "giảng bài" lại. Kenton viết Cap'n Proto, viết Workers runtime — nếu có ai hiểu bug RPC thì là ông. AI vẫn nhìn ra góc khuất ông để lại.
- Comment cổ là tín hiệu, không phải noise. Mọi codebase trên 3 năm đều đầy
TODO,FIXME,HACK. Trước đây chúng được skip. Giờ model biến chúng thành đầu mối điều tra. - Debugging shift từ "đọc stack trace" sang "đọc lịch sử". Long-context model coi git blame + comment + design doc là cùng một input.
Technical facts về GPT-5.5
OpenAI ra mắt GPT-5.5 và GPT-5.5 Pro ngày 23/04/2026, rollout đồng thời lên ChatGPT (Plus, Pro, Business, Enterprise) và Codex. API mở "rất sớm" sau đó với context window 1M token, giá $5/M input và $30/M output. Một số con số đáng nhớ:
| Benchmark | GPT-5.5 | Ghi chú |
|---|---|---|
| SWE-Bench Verified | 88.7% | Flagship coding metric |
| SWE-Bench Pro | 58.6% | Claude Opus 4.7 dẫn 64.3% |
| Terminal-Bench 2.0 | 82.7% | SOTA, vượt Claude Mythos Preview |
| Expert-SWE | 73.1% | Eval nội bộ OpenAI; 20h human-time/task; GPT-5.4 đạt 68.5% |
OpenAI nói thẳng: "debugging cycles từng kéo dài nhiều ngày giờ rút xuống vài giờ." GPT-5.5 cùng latency với GPT-5.4 nhưng dùng ít token hơn cho cùng tác vụ Codex — nghĩa là cost per fix giảm.
Comparison: GPT-5.5 vs Claude Opus 4.7 vs GPT-5.4
| Tiêu chí | GPT-5.5 | Claude Opus 4.7 | GPT-5.4 |
|---|---|---|---|
| SWE-Bench Verified | 88.7% | — | thấp hơn |
| SWE-Bench Pro | 58.6% | 64.3% | — |
| Terminal-Bench 2.0 | 82.7% (SOTA) | sát nút | — |
| Expert-SWE (long-horizon) | 73.1% | — | 68.5% |
| Context | 1M | 1M | 1M |
| Input price | $5/M | $15/M | $5/M |
Kết quả nhìn lệch nhưng đồng thuận một thứ: cả hai model đã chạm ngưỡng tìm bug trong production code mà human reviewer bỏ qua.
Use cases — ai hưởng lợi nhất
- Library maintainer — đúng kịch bản Kenton: model đọc
TODO/FIXME/perfhint và re-evaluate xem có phải correctness bug ngầm không. - Edge / distributed-systems dev — debug xuyên runtime + RPC + serialization, nơi stack trace không kể hết câu chuyện.
- Onboarding legacy codebase — ngày 1 hỏi "vì sao module này thiết kế kỳ vậy?" và nhận câu trả lời truy ngược thiết kế 5–10 năm trước.
- Security review — pattern y hệt: tìm assumption cũ trong auth/IPC code đã hết hợp lệ.
- Code archaeology — viết PR description hay incident report bằng cách trace hành trình quyết định, không phải đoán mò.
Limitations & pricing
Vài điểm cần tỉnh táo:
- Tweet là anecdote dạng meme, không phải reproducible eval. "Model tìm correctness bug từ TODO perf cũ" chưa có benchmark chuẩn.
- 88.7% SWE-Bench Verified không có nghĩa 88.7% trên codebase của bạn. Workers/distributed bug — đúng dạng Cap'n Proto — vẫn là vùng failure-rich.
- Output token đắt gấp 6× input ($30 vs $5). Một agent trace dài (đọc git log, mở 20 file, viết patch + test) có thể tốn vài USD/lượt.
- Hallucination risk vẫn còn: model có thể chỉ một file/dòng sai mà nghe rất thuyết phục. Luôn verify trước khi commit fix.
What's next
Trục thời gian gần: GPT-5.2 → 5.4 → 5.5 cho thấy mỗi 6 tháng, gap trên long-horizon coding benchmark thu hẹp đáng kể. Expert-SWE nhảy từ 68.5% lên 73.1% trong một vòng — vòng tiếp theo có thể cán mốc 80% trên tác vụ tương đương 20 giờ làm người. Khi đó, anecdote kiểu "Kenton vs comment cũ của Kenton" sẽ không còn là moment lan truyền mà thành workflow hằng ngày: review nightly mở mọi TODO cũ, model đề xuất nâng cấp/loại bỏ; CI gắn bot quét comment cổ tìm dấu hiệu correctness drift.
Bài học khô khan từ một dòng tweet: comment cũ của bạn không chết, chúng chờ một model đọc đủ context để hỏi lại.
Nguồn: @KentonVarda trên X, OpenAI, VentureBeat, TokenMix.