Tất cả bài viết

// Posts#scale-ai

#6692026-05-18

96% Thất Bại: Khi RLI Nói Thật Về Năng Lực Thực Sự Của AI Agents

Model AI tốt nhất hiện tại (claude-opus-4-6 CoWork) chỉ đạt 4.17% trên Remote Labor Index, benchmark dùng 240 dự án Upwork thực tế trị giá hơn $140.000. 96% thất bại không phải vì task khó - các công việc đã được chia nhỏ và định nghĩa rõ ràng trước khi đưa vào test. Failure mode phổ biến nhất: file rỗng, file bị corrupt, và deliverable sai format. AI đang cải thiện - từ 2.5% lên 4.17% trong 4 tháng - nhưng human baseline vẫn gấp đôi mức tốt nhất của AI.

remote-labor-indexai-agentsai-benchmark

6 phút đọc