Tại sao LLM agent sụp đổ khi task dài: Không phải do reasoning, mà do số bước
RL training cho LLM agent sụp đổ hoàn toàn khi task vượt 20-30 bước, dù reasoning complexity không đổi - đây là reframing quan trọng nhất trong agentic AI 2026. Hai thủ phạm: exploration failure (quá nhiều đường đi) và credit assignment hỏng (bước đúng bị phạt vì trajectory dài thất bại). Macro actions và subgoals giải quyết cả hai, còn horizon generalization cho phép train trên task ngắn nhưng chạy được task dài.
OpenAI Codex ra mắt Auto-review: một AI giám sát AI để code chạy 7 tiếng không cần bạn ngồi canh
Codex v0.124.0 đưa Auto-review lên trạng thái stable — agent reviewer thứ hai tự đánh giá rủi ro và duyệt các bước nhạy cảm (chạy test, build, shell, network) thay con người, mở đường cho các task dài hàng giờ và nhiều agent chạy song song.
Claude Code tự động xây CMS: khi AI chạy 5 task liên tiếp không cần can thiệp
claude-mem đạt 73.9k GitHub stars sau 7 tháng - plugin giúp Claude Code nhớ mọi thứ qua các session. Một demo cho thấy Claude tự chạy 5 task liên tiếp (98.8k tokens, 5h 42m) để nâng cấp toàn bộ CMS y tế mà không cần hỏi lại người dùng. Smart compression giảm context 95%, từ 10,000 tokens xuống còn ~500 tokens. Cài bằng một lệnh: npx claude-mem install.