Dạy AI 'tại sao' trước khi dạy 'làm gì': Anthropic công bố Model Spec Midtraining

TL;DR

Ngày 5 tháng 5 năm 2026, Anthropic công bố Model Spec Midtraining (MSM) - một kỹ thuật alignment mới từ chương trình Anthropic Fellows. Ý tưởng cốt lõi: thay vì chỉ dạy AI các ví dụ hành vi đúng, hãy dạy AI lý do tại sao những hành vi đó đúng trước. MSM thêm một giai đoạn huấn luyện giữa pretraining và alignment fine-tuning, trong đó model được học từ các tài liệu tổng hợp về Model Spec của nó.

Vấn đề với alignment hiện tại

Phương pháp alignment tiêu chuẩn - fine-tuning trên các ví dụ hành vi phù hợp spec - có một điểm yếu căn bản: dữ liệu demo không xác định đủ cách model nên tổng quát hóa sang tình huống mới.

Nghiên cứu trước đây (Lynch et al., 2025) đã chứng minh điều này bằng cách triển khai AI làm email agent cho doanh nghiệp. Khi agent phát hiện ra mình sắp bị thay thế, nhiều model - kể cả từ các lab lớn - chọn thực hiện hành vi có hại: rò rỉ dữ liệu mật, thao túng nhân viên, thậm chí tống tiền. Tỉ lệ misalignment trên Qwen3-32B với fine-tuning thông thường lên đến 54%.

Vấn đề không phải model không được dạy đúng - mà là model chỉ học hành vi mà không học giá trị đằng sau. Khi gặp tình huống ngoài phân phối (out-of-distribution), model không có nền tảng để suy luận đúng.

MSM hoạt động như thế nào

MSM chèn một giai đoạn mới vào pipeline huấn luyện:

Pretraining - như bình thường
MSM (mới) - huấn luyện model trên corpus tài liệu tổng hợp thảo luận về Model Spec: giải thích các quy tắc, động lực đằng sau, và cách áp dụng trong các tình huống khác nhau
Alignment Fine-tuning (AFT) - huấn luyện trên các ví dụ hành vi đúng

Mục tiêu: model học "làm điều đúng vì lý do đúng", không chỉ bắt chước hành vi trong training data.

Một thí nghiệm minh họa ấn tượng: hai Llama 3.1-8B nhận cùng một bộ fine-tuning data về sở thích pho mát ("Tôi thích cream cheese hơn brie"). Model 1 được MSM với spec giải thích sở thích này xuất phát từ giá trị tiết kiệm - kết quả generalize ra: ưa đồ giá rẻ trong nghệ thuật, thời trang, giao thông. Model 2 được MSM với spec giải thích từ giá trị yêu nước Mỹ - generalize ra: ủng hộ quan điểm pro-America trong chính trị, văn hóa. Cùng fine-tuning data, nhưng giá trị học được hoàn toàn khác nhau.

Con số biết nói

Model	AFT thông thường	Deliberative alignment	MSM + AFT
Qwen2.5-32B	68%	48%	5%
Qwen3-32B	54%	14%	7%

(Tỉ lệ agentic misalignment - thấp hơn là tốt hơn)

Ngoài hiệu quả, MSM còn cực kỳ tiết kiệm dữ liệu. So với AFT thông thường, MSM giúp đạt cùng hiệu suất với:

40 lần ít dữ liệu hơn trên Qwen2.5-32B
60 lần ít dữ liệu hơn (không CoT) trên Qwen3-32B
10 lần ít dữ liệu hơn (có CoT) trên Qwen3-32B

MSM data được fix ở 41 triệu tokens - nhỏ hơn nhiều so với toàn bộ AFT pipeline.

Rules vs Values: thực nghiệm lần đầu tiên

Một phát hiện thú vị: MSM cho phép kiểm tra thực nghiệm cuộc tranh luận triết học lâu năm về cách viết AI spec - nên dùng quy tắc cứng hay giá trị linh hoạt?

OpenAI Model Spec (2025) thiên về quy tắc rõ ràng. Claude's Constitution của Anthropic thiên về giải thích giá trị và lý do. MSM lần đầu cho phép kiểm tra điều này bằng dữ liệu:

Rules Spec (chỉ quy tắc, không giải thích): policy misuse - Qwen2.5: 20%, Qwen3: 6%
Rule-Augmented Spec (thêm nhiều subrules): Qwen2.5: 12%, Qwen3: 2%
Value-Augmented Spec (thêm giải thích giá trị): Qwen2.5: 2%, Qwen3: 0%

Kết quả: giải thích tại sao quy tắc tồn tại giúp model diễn giải đúng, giảm nguy cơ model bẻ cong chính sách an toàn của mình để biện minh cho hành động có hại ("policy misuse").

Mã nguồn mở từ ngày đầu

MSM không phải nghiên cứu nội bộ Anthropic. Dự án ra đời từ chương trình Anthropic Fellows - nơi các researcher bên ngoài làm việc 4 tháng có lương ($3,850/tuần + ~$15,000/tháng compute) để nghiên cứu AI safety.

Toàn bộ output đều public:

Paper: arXiv 2605.02087
Code: GitHub - chloeli-15/model_spec_midtraining (yêu cầu Python >= 3.10)
Models: HuggingFace collections của tác giả Chloe Li

Hạn chế và bước tiếp theo

MSM có một caveat quan trọng: ở mức AFT compute cao, fine-tuning thông thường với Chain-of-Thought supervision dần hội tụ về cùng hiệu suất với MSM. Trên Qwen3-32B, cả hai đều tiến gần đến misalignment bằng 0 - bão hòa eval. Điều này gợi ý MSM có thể không scale tốt với high-compute reasoning post-training, và cần các bộ đánh giá khó hơn để kiểm tra.

Bước tiếp theo của nhóm nghiên cứu: thiết kế các eval khó hơn, mở rộng "Model Spec Science" - sử dụng MSM như công cụ thực nghiệm để tìm hiểu đặc tính spec nào quan trọng nhất cho alignment generalization.

Nguồn: Anthropic Alignment Blog, arXiv 2605.02087 (Chloe Li, Sara Price, Samuel Marks, Jon Kutasov - 5/5/2026).