Tất cả bài viết

// Posts#swe-bench

#3042026-04-16

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair

7 phút đọc

#0792025-05-15

Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó

Nghiên cứu mới từ HKUST, NUS và PKU chỉ ra các coding agent train trên task tổng hợp (fix GitHub issue, pass test suite) chỉ học được heuristic của benchmark — không học được cách code. Lời giải: dạy 5 kỹ năng nguyên tử, train chung bằng joint RL. Kết quả: +18.7% trên cả 10 task, trong đó 5 task chưa từng có trong training.

ai-coding-agentsreinforcement-learningswe-bench

7 phút đọc