- MSM giảm agentic misalignment từ 54% xuống 7% trên Qwen3-32B, vượt xa deliberative alignment baseline 14%.
- Kỹ thuật này cần ít dữ liệu hơn 40-60 lần so với fine-tuning thông thường.
- Mã nguồn và model đã mở trên GitHub và HuggingFace.
TL;DR
Ngày 5 tháng 5 năm 2026, Anthropic công bố Model Spec Midtraining (MSM) - một kỹ thuật alignment mới từ chương trình Anthropic Fellows. Ý tưởng cốt lõi: thay vì chỉ dạy AI các ví dụ hành vi đúng, hãy dạy AI lý do tại sao những hành vi đó đúng trước. MSM thêm một giai đoạn huấn luyện giữa pretraining và alignment fine-tuning, trong đó model được học từ các tài liệu tổng hợp về Model Spec của nó.
Vấn đề với alignment hiện tại
Phương pháp alignment tiêu chuẩn - fine-tuning trên các ví dụ hành vi phù hợp spec - có một điểm yếu căn bản: dữ liệu demo không xác định đủ cách model nên tổng quát hóa sang tình huống mới.
Nghiên cứu trước đây (Lynch et al., 2025) đã chứng minh điều này bằng cách triển khai AI làm email agent cho doanh nghiệp. Khi agent phát hiện ra mình sắp bị thay thế, nhiều model - kể cả từ các lab lớn - chọn thực hiện hành vi có hại: rò rỉ dữ liệu mật, thao túng nhân viên, thậm chí tống tiền. Tỉ lệ misalignment trên Qwen3-32B với fine-tuning thông thường lên đến 54%.
Vấn đề không phải model không được dạy đúng - mà là model chỉ học hành vi mà không học giá trị đằng sau. Khi gặp tình huống ngoài phân phối (out-of-distribution), model không có nền tảng để suy luận đúng.
MSM hoạt động như thế nào
MSM chèn một giai đoạn mới vào pipeline huấn luyện:
- Pretraining - như bình thường
- MSM (mới) - huấn luyện model trên corpus tài liệu tổng hợp thảo luận về Model Spec: giải thích các quy tắc, động lực đằng sau, và cách áp dụng trong các tình huống khác nhau
- Alignment Fine-tuning (AFT) - huấn luyện trên các ví dụ hành vi đúng
Mục tiêu: model học "làm điều đúng vì lý do đúng", không chỉ bắt chước hành vi trong training data.
Một thí nghiệm minh họa ấn tượng: hai Llama 3.1-8B nhận cùng một bộ fine-tuning data về sở thích pho mát ("Tôi thích cream cheese hơn brie"). Model 1 được MSM với spec giải thích sở thích này xuất phát từ giá trị tiết kiệm - kết quả generalize ra: ưa đồ giá rẻ trong nghệ thuật, thời trang, giao thông. Model 2 được MSM với spec giải thích từ giá trị yêu nước Mỹ - generalize ra: ủng hộ quan điểm pro-America trong chính trị, văn hóa. Cùng fine-tuning data, nhưng giá trị học được hoàn toàn khác nhau.
Con số biết nói
| Model | AFT thông thường | Deliberative alignment | MSM + AFT |
|---|---|---|---|
| Qwen2.5-32B | 68% | 48% | 5% |
| Qwen3-32B | 54% | 14% | 7% |
(Tỉ lệ agentic misalignment - thấp hơn là tốt hơn)
Ngoài hiệu quả, MSM còn cực kỳ tiết kiệm dữ liệu. So với AFT thông thường, MSM giúp đạt cùng hiệu suất với:
- 40 lần ít dữ liệu hơn trên Qwen2.5-32B
- 60 lần ít dữ liệu hơn (không CoT) trên Qwen3-32B
- 10 lần ít dữ liệu hơn (có CoT) trên Qwen3-32B
MSM data được fix ở 41 triệu tokens - nhỏ hơn nhiều so với toàn bộ AFT pipeline.
Rules vs Values: thực nghiệm lần đầu tiên
Một phát hiện thú vị: MSM cho phép kiểm tra thực nghiệm cuộc tranh luận triết học lâu năm về cách viết AI spec - nên dùng quy tắc cứng hay giá trị linh hoạt?
OpenAI Model Spec (2025) thiên về quy tắc rõ ràng. Claude's Constitution của Anthropic thiên về giải thích giá trị và lý do. MSM lần đầu cho phép kiểm tra điều này bằng dữ liệu:
- Rules Spec (chỉ quy tắc, không giải thích): policy misuse - Qwen2.5: 20%, Qwen3: 6%
- Rule-Augmented Spec (thêm nhiều subrules): Qwen2.5: 12%, Qwen3: 2%
- Value-Augmented Spec (thêm giải thích giá trị): Qwen2.5: 2%, Qwen3: 0%
Kết quả: giải thích tại sao quy tắc tồn tại giúp model diễn giải đúng, giảm nguy cơ model bẻ cong chính sách an toàn của mình để biện minh cho hành động có hại ("policy misuse").
Mã nguồn mở từ ngày đầu
MSM không phải nghiên cứu nội bộ Anthropic. Dự án ra đời từ chương trình Anthropic Fellows - nơi các researcher bên ngoài làm việc 4 tháng có lương ($3,850/tuần + ~$15,000/tháng compute) để nghiên cứu AI safety.
Toàn bộ output đều public:
- Paper: arXiv 2605.02087
- Code: GitHub - chloeli-15/model_spec_midtraining (yêu cầu Python >= 3.10)
- Models: HuggingFace collections của tác giả Chloe Li
Hạn chế và bước tiếp theo
MSM có một caveat quan trọng: ở mức AFT compute cao, fine-tuning thông thường với Chain-of-Thought supervision dần hội tụ về cùng hiệu suất với MSM. Trên Qwen3-32B, cả hai đều tiến gần đến misalignment bằng 0 - bão hòa eval. Điều này gợi ý MSM có thể không scale tốt với high-compute reasoning post-training, và cần các bộ đánh giá khó hơn để kiểm tra.
Bước tiếp theo của nhóm nghiên cứu: thiết kế các eval khó hơn, mở rộng "Model Spec Science" - sử dụng MSM như công cụ thực nghiệm để tìm hiểu đặc tính spec nào quan trọng nhất cho alignment generalization.
Nguồn: Anthropic Alignment Blog, arXiv 2605.02087 (Chloe Li, Sara Price, Samuel Marks, Jon Kutasov - 5/5/2026).




