// Posts#post-training
500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern
#3812026-04-23

500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern

Hugging Face vừa thả ml-intern — AI agent tự đọc paper, tự dựng dataset, tự train model. Sau 72 giờ, hơn 500 dự án nghiên cứu tự động chạy song song liên tục trên Space, sinh ra những kiến trúc kỳ quái như transformer thay thế bằng năng lượng tối thiểu và attention mô phỏng não người.

ml-internhugging-faceai-agents
7 phút đọc
Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác
#1542026-02-06

Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác

Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.

perplexityreinforcement-learninggrpo
7 phút đọc