#9462026-05-06
AI Agent tự cải thiện bằng Rubric: Vòng phản hồi thay đổi cuộc chơi
AI agent giờ có thể tự cải thiện liên tục bằng cách dùng một rubric mô tả tiêu chí hoàn thành nhiệm vụ, kết hợp grader sub-agent chuyên đánh giá từng vòng lặp. HyperAgents đạt imp@50 = 0.630 trên Olympiad math grading - trong khi hệ thống do con người thiết kế tay đạt 0.0. SICA tự chỉnh sửa code của chính mình, nâng điểm SWE-bench từ 17% lên 53%. Đây là pattern kỹ thuật đang được áp dụng trong sản xuất tại Meta, Cognition và Google DeepMind.