ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt

TL;DR

ml-intern là agent ML nguồn mở mới ra lò của Hugging Face — "bản cài đặt" đúng nghĩa quy trình research hàng ngày mà team post-training của HF đang làm. Bạn đưa 1 prompt, nó đọc paper, đi theo citation graph, kéo dataset về, viết script train trong GPU sandbox, chạy eval, tự diagnose khi reward collapse, rồi iterate cho đến khi số đẹp.

Không phải demo đồ chơi. Trên GPQA, nó đẩy Qwen3-1.7B từ 10% lên 32% trong chưa đến 10 giờ — Claude Code best chỉ đạt 22.99%. Trên HealthBench nó đập Codex 60% bằng 1,100 data point synthetic do chính nó tự sinh. Ship hôm nay dưới dạng CLI + web/mobile app. Miễn phí, mở mã.

Cái gì mới?

ml-intern được team smolagents của Hugging Face phát hành, do ML Research Engineer Aksel Joonas Reedi công bố. Slogan từ HF Space ngắn gọn đúng kiểu: "Instructions in. Trained model out."

Khác với các coding agent thông thường chỉ dừng ở "viết script cho bạn", ml-intern chạy hết vòng lặp của một ML researcher thật:

Tìm paper trên arXiv và hf.co/papers, đọc toàn văn, đi theo citation graph để tìm paper gốc/baseline.
Kéo dataset từ HF Datasets được reference trong section methodology của paper.
Browse Hub, đọc docs mới nhất, inspect và reformat dataset trước khi train để không đốt GPU hour vào data xấu.
Launch training trên HF Jobs / Spaces nếu không có local GPU, monitor run, đọc eval output của chính mình, diagnose failure, retrain.

Ship cả 2 kênh: CLI qua GitHub và web + mobile app trên HF Space — đúng nghĩa "train model từ điện thoại".

Tại sao đáng chú ý?

Các coding agent hiện tại (Claude Code, Codex, Cursor Composer) giỏi viết code — nhưng train LLM không phải bài toán code. Nó là bài toán research loop: đọc paper đúng, chọn dataset đúng, format data đúng, đặt hyperparam đúng, biết khi nào dừng run, biết khi nào chạy ablation. Các bước này trước giờ toàn bằng tay hoặc bằng Jupyter notebook rải khắp nơi.

ml-intern đóng gói full loop đó vào 1 agent. Và con số chứng minh nó không chỉ là marketing: hạ gục Claude Code trên chính sân nhà (GPQA) mà dùng model 1.7B làm base.

Technical facts đáng nhớ

Benchmark	ml-intern	Đối thủ	Ghi chú
GPQA (Qwen3-1.7B SFT)	32% sau <10h	Claude Code: 22.99% best	12 SFT runs · 7 biến thể dataset ARC/SciQ/MMLU · sourced từ OpenScience + NemoTron-CrossThink
HealthBench	Beat Codex +60%	OpenAI Codex baseline	Tự sinh 1,100 synthetic data point · upsample 50×
GRPO (competitive math)	Train thành công sau ablation	—	A100 trên HF Spaces · tự detect reward collapse · tự chạy ablation

Thêm vài điểm kiến trúc đáng ghi nhận:

Agentic loop tối đa 300 iterations với auto-compaction context ở mốc 170k tokens.
Tool router: HF docs/papers/datasets/jobs, GitHub code search, GPU sandbox, planning tool, MCP servers.
Doom loop detection: phát hiện tool call lặp vô nghĩa.
Approval gating cho các hành động nhạy cảm (launch job, destructive ops) — có cả headless mode auto-approve cho pipeline.
Stack: Python 69.3% + TypeScript 30.2%, uv package manager, Dockerfile sẵn, chạy trên Claude Agent SDK.

So sánh với Claude Code và Codex

Claude Code và Codex là general coding agent — viết code, chạy shell, refactor repo. ml-intern thì narrow hơn nhiều: chuyên ML research. Nhưng chính cái hẹp đó làm nó thắng:

Claude Code tốt cho dev task general. Khi đẩy sang GPQA fine-tune nó đạt 22.99% — không tệ, nhưng không biết cách walk citation graph hay chọn dataset theo methodology.
Codex viết code tốt, nhưng không tự inspect dataset chất lượng. Gặp HealthBench data xấu là nó chịu. ml-intern viết script sinh data mới từ đầu rồi vẫn thắng 60%.
ml-intern có lợi thế native stack HF: đọc paper, kéo dataset, launch job đều là tool calls 1-hop. Đối thủ phải qua browser/shell, chậm và hay lạc.

Use case thực tế

Team post-training / ML researcher: parallelize SFT/GRPO experiment. Để agent sweep 7-12 dataset variant qua đêm, sáng vào xem bảng eval.
Indie hacker / solo ML engineer: có "thực tập sinh ML" chạy training trên HF Jobs trong lúc bạn ngủ.
Domain expert không rành ML ops (healthcare, legal, tài chính): mô tả bài toán, để agent tự sinh synthetic data + baseline.
Reproduce paper: quăng URL paper vào, agent walk citation, kéo dataset, reproduce kết quả.
RL fine-tuning (GRPO, reward modeling): vốn khó debug reward collapse bằng tay, ml-intern có sẵn logic diagnose.

Limitations & pricing

Giá: mã nguồn mở, miễn phí. Bạn trả tiền cho ANTHROPIC_API_KEY (nguồn "não" của agent), HF_TOKEN, GITHUB_TOKEN + tiền GPU (local hoặc HF Jobs).
Khuyến khích launch: HF đã bơm $1,000 GPU credit + Anthropic credit cho các user nhanh tay nhất. Ai đăng ký sớm có khả năng chạy free full pipeline.
Web app trên HF Space hiện chạy CPU (Space owner có thể upgrade). Training thật sự vẫn chạy trên HF Jobs infra — Space chỉ là orchestrator UI.
Chưa có: eval suite formal, cost cap dài hạn, SLA enterprise. Bản chất là v0.1 — dùng để research/prototype hoặc làm base fork.
Độ chín: 41 stars, 6 forks tại thời điểm launch (số này sẽ tăng nhanh).

What's next

Đây mới ngày release, nhưng pattern mà ml-intern đại diện khá rõ: agent narrow-domain + deep ecosystem integration sẽ đánh bại agent general-purpose trong các vertical kỹ thuật. HF đang có ưu thế lớn vì nền tảng Hub + Jobs + Papers + Datasets đã sẵn — ml-intern chỉ là 1 wrapper thông minh trên đó.

Kỳ vọng: thêm MCP server plugin (đã mở config trong configs/main_agent_config.json), thêm eval automation, có thể thêm multi-agent (data engineer agent + trainer agent + evaluator agent chạy song song). Và cạnh tranh trực tiếp với các sản phẩm như Kaggle/Colab AI, AutoML-Agent (ICML'25), hay các internal tool của các lab lớn.

Nếu bạn đang làm ML production, đây là agent đáng thử ngay hôm nay — không phải vì nó hoàn hảo, mà vì nó cho thấy "tự động hoá research loop" đã thật sự feasible, không còn là khẩu hiệu.

Nguồn: @akseljoonas trên X, GitHub huggingface/ml-intern, HF Space smolagents/ml-intern.

ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt — đập Claude Code 10 điểm GPQA

TL;DR

Cái gì mới?

Tại sao đáng chú ý?

Technical facts đáng nhớ

So sánh với Claude Code và Codex

Use case thực tế

Limitations & pricing

What's next

Tiếp tục lướt

DeepSeek V4 Pro tự giải 4 challenge bảo mật expert-level chỉ với $6.84

AI agent chạy 24/7: 127K workflow, 2.7% lỗi — và REPL loop tự fix on-the-fly

SmallClaw: AI agent framework local-first cho small models, chạy ngon trên laptop 8GB RAM

Muon không phải optimizer của Kimi: Sự thật về cha đẻ thật sự

DeepSeek V4 Pro tự tay bẻ khoá expert PortSwigger XSS lab: CSP bypass + AngularJS sandbox escape trong 1 payload