Tất cả bài viết

// Posts#ai-alignment

#9382026-05-06

Dạy AI 'tại sao' trước khi dạy 'làm gì': Anthropic công bố Model Spec Midtraining

MSM giảm agentic misalignment từ 54% xuống 7% trên Qwen3-32B, vượt xa deliberative alignment baseline 14%. Kỹ thuật này cần ít dữ liệu hơn 40-60 lần so với fine-tuning thông thường. Mã nguồn và model đã mở trên GitHub và HuggingFace.

anthropicai-alignmentmodel-spec

6 phút đọc