Tag: #ai-benchmark

2 bài viết

#6542026-05-18

96% Thất Bại: Khi RLI Nói Thật Về Năng Lực Thực Sự Của AI Agents

Model AI tốt nhất hiện tại (claude-opus-4-6 CoWork) chỉ đạt 4.17% trên Remote Labor Index, benchmark dùng 240 dự án Upwork thực tế trị giá hơn $140.000. 96% thất bại không phải vì task khó - các công việc đã được chia nhỏ và định nghĩa rõ ràng trước khi đưa vào test. Failure mode phổ biến nhất: file rỗng, file bị corrupt, và deliverable sai format. AI đang cải thiện - từ 2.5% lên 4.17% trong 4 tháng - nhưng human baseline vẫn gấp đôi mức tốt nhất của AI.

remote-labor-indexai-agentsai-benchmark

6 phút đọc

#4892026-05-06

Car Wash Test: Câu hỏi 50 chữ khiến 79% AI model thất bại hoàn toàn

42 trên 53 AI model đề xuất đi bộ thay vì lái xe đến tiệm rửa - sai hoàn toàn vì xe phải có mặt ở đó để được rửa. Cue khoảng cách 50 mét gây nhiễu logic mạnh hơn mục tiêu thực sự tới 38 lần theo nghiên cứu CMU. Chỉ 5 model vượt qua nhất quán 10/10 lần: Claude Opus 4.6, Gemini 3 Flash, Gemini 3 Pro, Gemini 2.0 Flash Lite, Grok-4. Thêm một dòng buộc model liệt kê điều kiện tiên quyết trước khi trả lời - không cần model mới, không cần thêm dữ liệu.

car-wash-testllm-reasoningprompt-engineering

7 phút đọc