TL;DR

Paper Scaling Test-Time Compute for Agentic Coding (arxiv 2604.16529, submit 16/04/2026) của nhóm Meta/FAIR cùng CMU, Princeton, AI2 đưa ra một thông điệp ngược trực giác: coding agent mạnh hơn không nằm ở chỗ chạy nhiều attempt hơn, mà ở cách nó ghi nhớ attempt đã chạy. Nén mỗi rollout thành một summary có cấu trúc — giả thuyết chính, phần tiến triển, điểm thất bại — rồi chạy tournament voting đệ quy để chọn và feed summary tốt nhất vào vòng sau. Kết quả: Claude 4.5 Opus nhảy từ 70.9% lên 77.6% trên SWE-Bench Verified (mini-SWE-agent) và từ 46.9% lên 59.1% trên Terminal-Bench v2.0 (Terminus 1).

Có gì mới?

Test-time scaling là chiêu quen thuộc với LLM: sinh nhiều output, rank, chọn cái tốt nhất. Best-of-N, self-consistency, majority vote — đều ổn với câu trả lời ngắn. Nhưng coding agent không trả lời ngắn. Một attempt của nó là một trajectory dài: đọc file, chạy shell, đọc error, vá tạm, bỏ hướng sai, thử hướng khác.

Khi model muốn so sánh hai trajectory loại đó, nó phải parse lại cả log — nhiễu, dài, không trực tiếp rank được. Ranking fail, test-time scaling fail theo.

Nhóm Meta đổi góc nhìn: bottleneck không phải generation mà là representation. Nếu mỗi rollout được convert về một summary ngắn có cấu trúc (hypothesis chính, progress đạt được, failure modes), thì selection và reuse đều tự nhiên trở lại.

Từ representation đó, paper đưa ra hai kỹ thuật:

  • Recursive Tournament Voting (RTV) — parallel scaling. Thay vì bắt model rank N candidate trong một lần (khó, noisy), RTV chia thành group nhỏ, voting đệ quy để chọn ra summary top. Dạng bracket tournament, mỗi match chỉ cần so sánh 2–4 đối thủ.
  • Parallel-Distill-Refine (PDR) — sequential scaling. Tổng hợp summary từ các lần attempt trước, nhét vào context của vòng tiếp theo. Agent bước sau không bắt đầu lại từ con số 0.

Tại sao đáng chú ý?

Phần lớn các trick test-time scaling hiện tại (Best-of-N, self-consistency) được thiết kế cho câu trả lời ngắn. Với agent dài hơi, chúng gần như vô dụng vì không có gì để rank. Paper này đóng khung lại vấn đề: test-time scaling cho long-horizon agent về bản chất là bài toán representation, selection, và reuse — không phải bài toán sinh thêm sample.

Đây là framing quan trọng với bất kỳ ai đang build agent harness. Nếu bạn đang chạy parallel rollout rồi dùng một LLM-as-judge rank cả cụm — bạn đang đốt token vào mô hình không có khả năng so sánh trajectory thô. Chuyển sang summary-first và tournament thì cùng budget mà hiệu quả hơn.

Technical facts

BenchmarkHarnessBaselineVới RTV+PDRDelta
SWE-Bench Verifiedmini-SWE-agent70.9%77.6%+6.7 pts
Terminal-Bench v2.0Terminus 146.9%59.1%+12.2 pts

Model dùng trong cả hai bench là Claude 4.5 Opus. Điểm đáng chú ý: delta trên Terminal-Bench v2.0 lớn gần gấp đôi delta trên SWE-Bench Verified. Terminal-Bench v2.0 dài hơi hơn — task trải dài hơn, nhiều bước hơn, context dày hơn. Đúng với giả thuyết paper: representation càng quan trọng khi horizon càng dài.

Representation summary preserve 3 thứ: salient hypotheses (agent đang đoán gì), partial progress (đã đi tới đâu), failure modes (chết ở chỗ nào, vì sao). Còn lại — file read thô, output shell, tail log — bỏ.

So với các cách khác

Best-of-N và majority vote: OK cho math/short answer, không work cho agent trajectory vì các trajectory không rank trực tiếp được.

Reflexion và self-refine: gần về mặt tinh thần, nhưng RTV + PDR formalize hẳn pipeline rollout → summary → tournament → reuse và apply trên frontier model ở bench công khai, không phải toy task.

Một số paper cùng hướng: "Scaling Test-time Compute for LLM Agents" (arxiv 2506.12928), "Agentic Test-Time Scaling for WebAgents" (2602.12276) — giải quyết bài tương tự cho web agent và reasoning agent, không tập trung vào long-horizon coding.

Use case

  • Autonomous SWE agent fix GitHub issue thực tế. SWE-Bench Verified là bench chuẩn cho kịch bản này — +6.7 pt là đáng kể ở top range.
  • Terminal automation / sysadmin agent: Terminal-Bench v2.0 cover scientific workflow, networking, security, data pipeline. +12.2 pt cho thấy cải thiện lớn nhất ở đây.
  • Agent harness đang dùng parallel rollout + LLM-as-judge: thay voting flat bằng tournament, thay log-based rank bằng summary-based rank. Drop-in với code hiện tại.
  • Agent chạy dài giờ/ngày trong codebase lớn: PDR cho attempt sau thừa hưởng "bài học" của attempt trước thay vì restart.

Limitations & pricing

Đây là paper nghiên cứu — không phải sản phẩm. Paper không bán framework; bạn phải tự triển khai RTV + PDR trên harness của mình.

Chi phí compute tăng: nhiều rollout song song + bước generate summary + các vòng tournament voting. Hiệu quả đổi lấy token. Bước sinh summary cũng dùng LLM — nếu summarizer yếu, summary lệch, lesson truyền đi sai, PDR có thể phản tác dụng.

Benchmark vẫn synthetic so với codebase production. +6.7 pt trên SWE-Bench Verified không tự động chuyển thành +6.7 pt trong repo công ty bạn.

What's next

Paper đóng khung hướng research mới: "test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse." Các nhánh mở ra tự nhiên: schema summary tốt hơn (structured field thay vì free text), learned tournament judge thay rule-based voting, cross-task memory reuse (summary của task A dùng lại cho task B tương tự), và tích hợp với RL fine-tuning để model học cách viết summary hữu ích hơn.

Thông điệp quan trọng với team đang build agent: trước khi throw thêm GPU vào parallel sampling, hỏi xem agent của bạn có biết so sánh past attempt không. Nếu không, fix representation trước — cheap hơn, gain lớn hơn.

Nguồn: arxiv 2604.16529, Terminal-Bench, SWE-Bench, tweet gốc của @rohanpaul_ai.