- Hugging Face vừa open-source ml-intern: agent đọc paper, đi theo citation graph, kéo dataset, viết script, chạy training trên A100, tự diagnose khi reward collapse.
- Từ Qwen3-1.7B nâng GPQA 10% → 32% trong <10 giờ — Claude Code best chỉ 22.99%.
- Beat Codex trên HealthBench 60% bằng synthetic data nó tự sinh.
TL;DR
ml-intern là agent ML nguồn mở mới ra lò của Hugging Face — "bản cài đặt" đúng nghĩa quy trình research hàng ngày mà team post-training của HF đang làm. Bạn đưa 1 prompt, nó đọc paper, đi theo citation graph, kéo dataset về, viết script train trong GPU sandbox, chạy eval, tự diagnose khi reward collapse, rồi iterate cho đến khi số đẹp.
Không phải demo đồ chơi. Trên GPQA, nó đẩy Qwen3-1.7B từ 10% lên 32% trong chưa đến 10 giờ — Claude Code best chỉ đạt 22.99%. Trên HealthBench nó đập Codex 60% bằng 1,100 data point synthetic do chính nó tự sinh. Ship hôm nay dưới dạng CLI + web/mobile app. Miễn phí, mở mã.
Cái gì mới?
ml-intern được team smolagents của Hugging Face phát hành, do ML Research Engineer Aksel Joonas Reedi công bố. Slogan từ HF Space ngắn gọn đúng kiểu: "Instructions in. Trained model out."
Khác với các coding agent thông thường chỉ dừng ở "viết script cho bạn", ml-intern chạy hết vòng lặp của một ML researcher thật:
- Tìm paper trên arXiv và hf.co/papers, đọc toàn văn, đi theo citation graph để tìm paper gốc/baseline.
- Kéo dataset từ HF Datasets được reference trong section methodology của paper.
- Browse Hub, đọc docs mới nhất, inspect và reformat dataset trước khi train để không đốt GPU hour vào data xấu.
- Launch training trên HF Jobs / Spaces nếu không có local GPU, monitor run, đọc eval output của chính mình, diagnose failure, retrain.
Ship cả 2 kênh: CLI qua GitHub và web + mobile app trên HF Space — đúng nghĩa "train model từ điện thoại".
Tại sao đáng chú ý?
Các coding agent hiện tại (Claude Code, Codex, Cursor Composer) giỏi viết code — nhưng train LLM không phải bài toán code. Nó là bài toán research loop: đọc paper đúng, chọn dataset đúng, format data đúng, đặt hyperparam đúng, biết khi nào dừng run, biết khi nào chạy ablation. Các bước này trước giờ toàn bằng tay hoặc bằng Jupyter notebook rải khắp nơi.
ml-intern đóng gói full loop đó vào 1 agent. Và con số chứng minh nó không chỉ là marketing: hạ gục Claude Code trên chính sân nhà (GPQA) mà dùng model 1.7B làm base.
Technical facts đáng nhớ
| Benchmark | ml-intern | Đối thủ | Ghi chú |
|---|---|---|---|
| GPQA (Qwen3-1.7B SFT) | 32% sau <10h | Claude Code: 22.99% best | 12 SFT runs · 7 biến thể dataset ARC/SciQ/MMLU · sourced từ OpenScience + NemoTron-CrossThink |
| HealthBench | Beat Codex +60% | OpenAI Codex baseline | Tự sinh 1,100 synthetic data point · upsample 50× |
| GRPO (competitive math) | Train thành công sau ablation | — | A100 trên HF Spaces · tự detect reward collapse · tự chạy ablation |
Thêm vài điểm kiến trúc đáng ghi nhận:
- Agentic loop tối đa 300 iterations với auto-compaction context ở mốc 170k tokens.
- Tool router: HF docs/papers/datasets/jobs, GitHub code search, GPU sandbox, planning tool, MCP servers.
- Doom loop detection: phát hiện tool call lặp vô nghĩa.
- Approval gating cho các hành động nhạy cảm (launch job, destructive ops) — có cả headless mode auto-approve cho pipeline.
- Stack: Python 69.3% + TypeScript 30.2%, uv package manager, Dockerfile sẵn, chạy trên Claude Agent SDK.
So sánh với Claude Code và Codex
Claude Code và Codex là general coding agent — viết code, chạy shell, refactor repo. ml-intern thì narrow hơn nhiều: chuyên ML research. Nhưng chính cái hẹp đó làm nó thắng:
- Claude Code tốt cho dev task general. Khi đẩy sang GPQA fine-tune nó đạt 22.99% — không tệ, nhưng không biết cách walk citation graph hay chọn dataset theo methodology.
- Codex viết code tốt, nhưng không tự inspect dataset chất lượng. Gặp HealthBench data xấu là nó chịu. ml-intern viết script sinh data mới từ đầu rồi vẫn thắng 60%.
- ml-intern có lợi thế native stack HF: đọc paper, kéo dataset, launch job đều là tool calls 1-hop. Đối thủ phải qua browser/shell, chậm và hay lạc.
Use case thực tế
- Team post-training / ML researcher: parallelize SFT/GRPO experiment. Để agent sweep 7-12 dataset variant qua đêm, sáng vào xem bảng eval.
- Indie hacker / solo ML engineer: có "thực tập sinh ML" chạy training trên HF Jobs trong lúc bạn ngủ.
- Domain expert không rành ML ops (healthcare, legal, tài chính): mô tả bài toán, để agent tự sinh synthetic data + baseline.
- Reproduce paper: quăng URL paper vào, agent walk citation, kéo dataset, reproduce kết quả.
- RL fine-tuning (GRPO, reward modeling): vốn khó debug reward collapse bằng tay, ml-intern có sẵn logic diagnose.
Limitations & pricing
- Giá: mã nguồn mở, miễn phí. Bạn trả tiền cho
ANTHROPIC_API_KEY(nguồn "não" của agent),HF_TOKEN,GITHUB_TOKEN+ tiền GPU (local hoặc HF Jobs). - Khuyến khích launch: HF đã bơm $1,000 GPU credit + Anthropic credit cho các user nhanh tay nhất. Ai đăng ký sớm có khả năng chạy free full pipeline.
- Web app trên HF Space hiện chạy CPU (Space owner có thể upgrade). Training thật sự vẫn chạy trên HF Jobs infra — Space chỉ là orchestrator UI.
- Chưa có: eval suite formal, cost cap dài hạn, SLA enterprise. Bản chất là v0.1 — dùng để research/prototype hoặc làm base fork.
- Độ chín: 41 stars, 6 forks tại thời điểm launch (số này sẽ tăng nhanh).
What's next
Đây mới ngày release, nhưng pattern mà ml-intern đại diện khá rõ: agent narrow-domain + deep ecosystem integration sẽ đánh bại agent general-purpose trong các vertical kỹ thuật. HF đang có ưu thế lớn vì nền tảng Hub + Jobs + Papers + Datasets đã sẵn — ml-intern chỉ là 1 wrapper thông minh trên đó.
Kỳ vọng: thêm MCP server plugin (đã mở config trong configs/main_agent_config.json), thêm eval automation, có thể thêm multi-agent (data engineer agent + trainer agent + evaluator agent chạy song song). Và cạnh tranh trực tiếp với các sản phẩm như Kaggle/Colab AI, AutoML-Agent (ICML'25), hay các internal tool của các lab lớn.
Nếu bạn đang làm ML production, đây là agent đáng thử ngay hôm nay — không phải vì nó hoàn hảo, mà vì nó cho thấy "tự động hoá research loop" đã thật sự feasible, không còn là khẩu hiệu.
Nguồn: @akseljoonas trên X, GitHub huggingface/ml-intern, HF Space smolagents/ml-intern.
