HeavySkill: Suy luận nặng trở thành kỹ năng nội tại của LLM
HeavySkill biến heavy thinking thành 2 giai đoạn song song và tổng hợp tuần tự, đạt 100% AIME25 với Kimi K2 và DeepSeek V3.2. GPT-OSS-20B tăng từ 69.7% lên 85.5% trên LiveCodeBench. Open-source Apache-2.0, tích hợp trực tiếp Claude Code không cần sửa code.
Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn
Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.