Tất cả bài viết

// Posts#test-time-scaling

#5722026-05-08

HeavySkill: Suy luận nặng trở thành kỹ năng nội tại của LLM

HeavySkill biến heavy thinking thành 2 giai đoạn song song và tổng hợp tuần tự, đạt 100% AIME25 với Kimi K2 và DeepSeek V3.2. GPT-OSS-20B tăng từ 69.7% lên 85.5% trên LiveCodeBench. Open-source Apache-2.0, tích hợp trực tiếp Claude Code không cần sửa code.

heavyskilltest-time-scalingllm-reasoning

6 phút đọc

#3042026-04-16

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair

7 phút đọc