// Posts#llm-agents
Tại sao LLM agent sụp đổ khi task dài: Không phải do reasoning, mà do số bước
#4192026-04-26

Tại sao LLM agent sụp đổ khi task dài: Không phải do reasoning, mà do số bước

RL training cho LLM agent sụp đổ hoàn toàn khi task vượt 20-30 bước, dù reasoning complexity không đổi - đây là reframing quan trọng nhất trong agentic AI 2026. Hai thủ phạm: exploration failure (quá nhiều đường đi) và credit assignment hỏng (bước đúng bị phạt vì trajectory dài thất bại). Macro actions và subgoals giải quyết cả hai, còn horizon generalization cho phép train trên task ngắn nhưng chạy được task dài.

agentic-aillm-engineeringreinforcement-learning
7 phút đọc
Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn
#3042026-04-16

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair
7 phút đọc
ReasoningBank: Google dạy AI agent học từ cả thành công lẫn thất bại — success rate tăng +34.2%
#1022025-09-30

ReasoningBank: Google dạy AI agent học từ cả thành công lẫn thất bại — success rate tăng +34.2%

Google Cloud AI Research vừa công bố ReasoningBank — một memory framework cho LLM agent, chuyển trải nghiệm (bao gồm cả lỗi) thành chiến lược tái sử dụng được. Kết quả: +8.3 điểm success rate trên WebArena, -16% interaction steps, mở ra một chiều scaling mới cho AI agent.

reasoningbankgoogle-researchai-agents
8 phút đọc