96% Thất Bại: Khi RLI Nói Thật Về Năng Lực Thực Sự Của AI Agents

TL;DR

Remote Labor Index (RLI) là benchmark đo khả năng AI agent hoàn thành công việc remote có giá trị kinh tế thực. Được tạo bởi Scale AI và Center for AI Safety, RLI dùng 240 dự án Upwork thực tế - không phải bài test giả định - trị giá hơn $140.000. Kết quả tháng 5/2026: model tốt nhất (claude-opus-4-6 CoWork) chỉ đạt 4.17%. 12 model hàng đầu thế giới đều không vượt ngưỡng này. Phần còn lại - 95.83% - là thất bại.

RLI là gì và ai tạo ra nó

RLI (Remote Labor Index) là benchmark được Scale AI và Center for AI Safety (CAIS) công bố vào tháng 10/2025, với tác giả chính là Mantas Mazeika cùng 46 đồng tác giả, trong đó có Dan Hendrycks (CAIS) và Alexandr Wang (Scale AI).

Điểm khác biệt cốt lõi so với các benchmark thông thường: RLI dùng công việc thực tế từ Upwork, không phải bài test nhân tạo. Mỗi dự án trong bộ 240 tasks đều có brief thực, file đầu vào thực, và một deliverable "gold standard" do freelancer người thật đã hoàn thành. Tiêu chí đánh giá thẳng thắn: liệu một "reasonable client" có chấp nhận deliverable này không?

Phạm vi bao gồm 23 ngành nghề, trong đó nổi bật:

Video production: 13%
CAD & 3D modeling: 12%
Graphic design: 11%
Game development: 10%
Audio: 10%
Architecture: 7%
Product design: 6%

Phân bổ dự án theo ngành trong Remote Labor Index — Phân bổ 240 dự án RLI theo ngành - trải rộng từ video đến CAD, game dev, audio

Tổng khối lượng công việc được đại diện: 6.000+ giờ lao động, giá trị hơn $140.000. Một số dự án có chi phí lên tới $10.000+ và kéo dài hơn 100 giờ. Thời gian hoàn thành trung bình của freelancer người thật: 28.9 giờ (trung vị: 11.5 giờ).

Leaderboard tháng 5/2026: Bức tranh không đẹp

Khi RLI được công bố lần đầu (tháng 10/2025), Manus dẫn đầu với 2.5%. Sau 7 tháng, top leaderboard giờ trông như thế này:

So sánh automation rate các AI model trên RLI benchmark — Automation rate so sánh giữa các frontier AI models - tất cả đều dưới 3% tại thời điểm paper gốc (Oct 2025)

#1 claude-opus-4-6 (CoWork): 4.17% - entry mới nhất
#2 claude-opus-4-5 thinking: 3.75%
#3 Manus_1.6 Max: 2.92%
#4 gpt-5.2 (medium) & Manus 1.5: 2.50%
#7 claude-4-5-Sonnet & gpt-5.2 (default): 2.08%
#9 gpt-5: 1.67%
#12 Gemini 2.5 Pro: 0.83%

Gemini 2.5 Pro - model Google quảng bá mạnh trên nhiều benchmark - đứng cuối với chỉ 0.83%. Ngay cả model dẫn đầu cũng chỉ hoàn thành được 1 trong 24 task. 23 task còn lại: thất bại.

Elo score của tất cả model nằm trong khoảng 400-510, trong khi human baseline cố định ở 1000 - khoảng cách gần gấp đôi.

Elo score các AI model so với human baseline 1000 — Elo score toàn bảng - tất cả model đều quanh mức 400-510, còn rất xa so với human baseline 1000

Tại sao AI thất bại trên công việc thực tế

Câu hỏi quan trọng hơn con số 4%: tại sao? AI đã đạt 40-80%+ trên SWE-bench và nhiều benchmark lập trình - nhưng lại sụp đổ trên công việc freelance thực tế?

Có 4 nguyên nhân chính được ghi nhận trong RLI paper:

1. Lỗi cộng dồn (Compounding failures) - Task thực tế cần 20+ bước liên tiếp. Nếu mỗi bước accuracy là 90%, tổng thành công của cả chuỗi chỉ còn ~12%. Benchmark đơn giản thường chỉ cần 1-3 bước.

2. Câu lệnh mơ hồ (Instruction ambiguity) - Brief Upwork thực tế không được viết cho AI. "Build me a scraper" không nói rõ data nào, format nào, error handling ra sao. AI agent hoặc tự assume sai hoặc hỏi quá nhiều.

3. Điều phối tool thất bại (Tool orchestration failures) - Task thực đòi hỏi chuỗi tool calls phức tạp: web search, file manipulation, API calls, code execution. Pass output từ tool này sang tool khác, xử lý rate limits và lỗi bất ngờ - AI thường gãy ở đây.

4. Môi trường không kiểm soát được (Unpredictable environments) - Website thay đổi structure, API trả về lỗi bất ngờ, file đến không đúng format. AI được train trong môi trường kiểm soát, thiếu khả năng ứng phó với bất định thực tế.

Failure mode phổ biến nhất được ghi lại: file rỗng, file bị corrupt, deliverable sai format. Những lỗi kỹ thuật cơ bản mà một freelancer người thật sẽ không mắc phải.

Góc nhìn cân bằng: AI đang cải thiện, nhưng chậm

Đây không phải là câu chuyện "AI vô dụng". Từ 2.5% (tháng 1/2026) lên 4.17% (tháng 5/2026) là mức tăng 67% trong vòng 4 tháng. Elo ranking xác nhận: model mới liên tục vượt model cũ, xu hướng cải thiện có thể đo lường được.

Điều quan trọng là biết AI làm tốt ở đâu. RLI chỉ đo autonomous completion - AI tự làm từ đầu đến cuối không có người hỗ trợ. Trong thực tế, AI vẫn tạo ra giá trị lớn khi:

Task hẹp, lặp lại, có cấu trúc và success criteria rõ ràng
Con người review và chỉnh sửa output (AI augment, không phải AI autonomous)
Workflow đã được định nghĩa trước, không cần interpret brief mơ hồ

Những vendor tuyên bố AI sẽ "tự động hóa 50% công việc" thường không phân biệt autonomous vs augmented. RLI đo cái khó hơn nhiều - và kết quả nói lên tất cả.

Kết: Đọc benchmark, không đọc press release

Khi một vendor AI tuyên bố "AI sẽ thay thế X% lao động vào năm Y", hãy hỏi một câu đơn giản: Automation rate của bạn trên RLI là bao nhiêu?

4.17% không phải con số để xấu hổ - đó là baseline thực tế của năm 2026. Nhưng đừng nhầm nó với "AI đã sẵn sàng thay thế remote worker". Khoảng cách giữa Elo ~500 và Human Baseline 1000 là rất thật. Nó đang thu hẹp - chỉ là chậm hơn nhiều so với những gì headline thường gợi ý.

Tài liệu tham khảo: RLI Leaderboard | arxiv:2510.26787 | remotelabor.ai | via @gerardsans