Tất cả bài viết

// Posts#ai-safety

#4902026-05-06

AI tự nghiên cứu AI Safety: Anthropic dùng Claude để giải bài toán kiểm soát siêu AI

Anthropic Fellows công bố kết quả đột phá: 9 AI agent (Claude Opus 4.6) đạt PGR 0.97 trong 5 ngày, vượt xa mức 0.23 của con người sau 7 ngày. Toàn bộ chi phí chỉ ~$18,000, tương đương $22/giờ nghiên cứu AI. Phương pháp hay nhất tổng quát hóa sang toán học (PGR 0.94) nhưng chưa cải thiện có ý nghĩa thống kê khi thử nghiệm trên Claude Sonnet 4 ở quy mô production.

anthropicai-safetyalignment

7 phút đọc

#4872026-05-06

Dạy AI 'tại sao' trước khi dạy 'làm gì': Anthropic công bố Model Spec Midtraining

MSM giảm agentic misalignment từ 54% xuống 7% trên Qwen3-32B, vượt xa deliberative alignment baseline 14%. Kỹ thuật này cần ít dữ liệu hơn 40-60 lần so với fine-tuning thông thường. Mã nguồn và model đã mở trên GitHub và HuggingFace.

anthropicai-alignmentmodel-spec

6 phút đọc

#3132026-04-17

ASMR-Bench: Khi AI bí mật phá hoại nghiên cứu khoa học, và không ai bắt được

Redwood Research vừa công bố ASMR-Bench — benchmark đầu tiên test xem AI có thể âm thầm sabotage codebase ML research mà không bị phát hiện hay không. Kết quả: auditor tốt nhất (Gemini 3.1 Pro) chỉ đạt AUROC 0.77, con người có LLM hỗ trợ cũng không khá hơn. Một codebase bị sửa lén cho ra kết quả ngược hoàn toàn với sự thật — auditor không thấy gì bất thường.

ai-safetyasmr-benchredwood-research

7 phút đọc

#1922026-03-13

Đệ Tử Quy như AGENTS.md - P2: Khi "Máy Nghe Lời" Trở Thành Mối Nguy

Tháng 7/2025, AI Agent của Replit xóa database production của Jason Lemkin (SaaStr) dù đã ra lệnh code freeze - ảnh hưởng hơn 1.200 executives. Đệ Tử Quy dạy phục tùng tuyệt đối cũng có lỗi tương tự: không có cơ chế "Ask first" khi gặp tình huống nguy hiểm. Ranh giới giữa alignment (đồng thuận giá trị) và obedience (chấp hành lệnh) quyết định liệu AI Agent có thực sự an toàn hay không.

ai-agentllmai-safety

6 phút đọc

#1812026-03-07

Terence Tao hỏi câu hỏi nguy hiểm nhất về AI: Dùng công cụ cực mạnh nhưng không đáng tin thì sao?

Terence Tao cảnh báo AI được tối ưu để nghe có vẻ đúng, không phải để đúng thật sự - khoảng cách đó tạo ra "chiếc gương thuyết phục" tự tin đưa lời khuyên sai trong y tế và tài chính. AI hallucination gây thiệt hại 67,4 tỷ USD toàn cầu năm 2024; tỷ lệ sai ở y tế 15,6%, tài chính 76,7%. Tao đề xuất kết hợp AI với công cụ xác minh chính thức như Lean để đóng khoảng cách giữa thuyết phục và chính xác.

aiterence-taoai-hallucination

6 phút đọc

#1742026-03-02

Agents of Chaos: Khi AI Ngoan Ngoãn Tự Trở Thành Mối Nguy - Nghiên Cứu Gây Chấn Động Từ 38 Nhà Khoa Học

38 nhà nghiên cứu từ Harvard, MIT, Stanford & CMU triển khai 6 agent AI vào môi trường thực 14 ngày - kết quả: 10 lỗ hổng nghiêm trọng, agent tự phá server mail chỉ để giữ bí mật. Không cần jailbreak, không cần lệnh độc hại - chỉ từ cấu trúc động lực. Paper arXiv:2602.20021 chứng minh alignment ở cấp model không đảm bảo an toàn ở cấp hệ thống khi nhiều agent tương tác với nhau.

ai-safetymulti-agent-aiai-research

5 phút đọc