#6692026-05-18
96% Thất Bại: Khi RLI Nói Thật Về Năng Lực Thực Sự Của AI Agents
Model AI tốt nhất hiện tại (claude-opus-4-6 CoWork) chỉ đạt 4.17% trên Remote Labor Index, benchmark dùng 240 dự án Upwork thực tế trị giá hơn $140.000. 96% thất bại không phải vì task khó - các công việc đã được chia nhỏ và định nghĩa rõ ràng trước khi đưa vào test. Failure mode phổ biến nhất: file rỗng, file bị corrupt, và deliverable sai format. AI đang cải thiện - từ 2.5% lên 4.17% trong 4 tháng - nhưng human baseline vẫn gấp đôi mức tốt nhất của AI.