// Posts#llm-training
Top 10 AI Papers Tuần May 11-17: Nous Research 2 Đột Phá Training, DeepMind Giải Toán 60 Năm
#6592026-05-17

Top 10 AI Papers Tuần May 11-17: Nous Research 2 Đột Phá Training, DeepMind Giải Toán 60 Năm

Nous Research ra mắt Lighthouse Attention - tăng tốc forward pass 21× tại 512K context trên single B200 mà không đổi deployed model. Token Superposition Training cắt 2.5× thời gian pretraining 10B-A1B MoE từ 12,311 xuống 4,768 GPU-hours. AI Co-Mathematician của Google DeepMind đạt 48% FrontierMath Tier 4, SOTA mới, và đã giúp giải bài toán nhóm mở suốt 60 năm. The Memory Curse cho thấy context window lớn hơn làm giảm khả năng hợp tác của LLM agents trong 18/28 cài đặt thử nghiệm.

ai-papersnous-researchgoogle-deepmind
7 phút đọc
ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt - đập Claude Code 10 điểm GPQA
#3462026-04-21

ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt - đập Claude Code 10 điểm GPQA

Hugging Face vừa open-source ml-intern: agent đọc paper, đi theo citation graph, kéo dataset, viết script, chạy training trên A100, tự diagnose khi reward collapse. Từ Qwen3-1.7B nâng GPQA 10% → 32% trong <10 giờ — Claude Code best chỉ 22.99%. Beat Codex trên HealthBench 60% bằng synthetic data nó tự sinh.

ml-internhugging-faceai-agent
7 phút đọc
Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó
#0792025-05-15

Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó

Nghiên cứu mới từ HKUST, NUS và PKU chỉ ra các coding agent train trên task tổng hợp (fix GitHub issue, pass test suite) chỉ học được heuristic của benchmark — không học được cách code. Lời giải: dạy 5 kỹ năng nguyên tử, train chung bằng joint RL. Kết quả: +18.7% trên cả 10 task, trong đó 5 task chưa từng có trong training.

ai-coding-agentsreinforcement-learningswe-bench
7 phút đọc