Tất cả bài viết

// Posts#scalable-oversight

#9412026-05-06

AI tự nghiên cứu AI Safety: Anthropic dùng Claude để giải bài toán kiểm soát siêu AI

Anthropic Fellows công bố kết quả đột phá: 9 AI agent (Claude Opus 4.6) đạt PGR 0.97 trong 5 ngày, vượt xa mức 0.23 của con người sau 7 ngày. Toàn bộ chi phí chỉ ~$18,000, tương đương $22/giờ nghiên cứu AI. Phương pháp hay nhất tổng quát hóa sang toán học (PGR 0.94) nhưng chưa cải thiện có ý nghĩa thống kê khi thử nghiệm trên Claude Sonnet 4 ở quy mô production.

anthropicai-safetyalignment

7 phút đọc