- Hugging Face vừa thả ml-intern — AI agent tự đọc paper, tự dựng dataset, tự train model.
- Sau 72 giờ, hơn 500 dự án nghiên cứu tự động chạy song song liên tục trên Space, sinh ra những kiến trúc kỳ quái như transformer thay thế bằng năng lượng tối thiểu và attention mô phỏng não người.
TL;DR
ml-intern là AI agent mã nguồn mở của Hugging Face, tự động hoá toàn bộ vòng lặp post-training LLM: đọc paper trên arXiv, đi theo citation graph, tìm & reformat dataset, chạy training job trên HF Jobs, debug lỗi, lặp lại. Trong 72 giờ đầu sau khi phát hành (21–23/04/2026), Space công khai đã chứng kiến hơn 500 dự án nghiên cứu tự động chạy song song mọi thời điểm. Điểm benchmark: Qwen3-1.7B nhảy từ 8.5% lên 32% trên GPQA trong <10h, vượt Claude Code (22.99%).
Điều gì vừa xảy ra
Ngày 21/04/2026 Hugging Face công bố ml-intern — một agent dựng trên framework smolagents, dùng Trackio để track experiment, và có quyền truy cập sâu vào hệ sinh thái HF (docs, papers, datasets, Jobs compute, sandbox). Aksel Joonas Reedi, ML Research Engineer nhóm Agents tại HF, là người dẫn dắt launch.
Hai ngày sau khi CLI + web app chính thức GA, Aksel đăng X: "72 giờ qua, Space lúc nào cũng có 500+ dự án nghiên cứu AI tự động chạy. Các use case người ta mang đến cool và ấn tượng hơn bất cứ thứ gì bọn tôi tưởng tượng khi xây nó."
Vì sao chuyện này quan trọng
Trước ml-intern, "AI làm research" chỉ dừng ở mức: viết script training, gợi ý hyperparameter, tóm tắt paper. ml-intern đóng kín vòng lặp: nó sở hữu toàn bộ quy trình từ literature review đến training run đến eval — bao gồm cả việc tự spin up GPU job khi máy local không đủ. Đây là lần đầu một AI agent công khai có thể tự chủ hoàn toàn một dự án ML nhỏ từ ý tưởng thô đến model đã ship.
Con số 500+ project song song cũng gợi ý một điều đáng suy nghĩ: nghiên cứu ML sắp bước vào thời kỳ brute-force ý tưởng. Khi chi phí biên của việc thử một kiến trúc mới tiệm cận 0, những ý tưởng điên trước đây bị gạt vì "không đủ nhân lực thử" bỗng dưng được hiện thực hoá hàng loạt.
Số liệu kỹ thuật
- GPQA scientific reasoning (Qwen3-1.7B target): baseline 8.5% → 32% sau <10h trên 1× H100. Chạm 27.5% chỉ sau hơn 3 giờ.
- HealthBench: +60% cải thiện, dùng 1.100 synthetic data points upsampled 50×.
- Vượt Claude Code 22.99% trên cùng GPQA task. Vượt OpenAI Codex ~60% trên HealthBench.
- Agentic loop: tối đa 300 iterations, auto-compaction context ở 170k tokens.
- Stack runtime: LiteLLM cho LLM calls, ContextManager + ToolRouter, sandbox cho code execution, session persistence trên HF.
- Model mặc định: Anthropic Claude (configurable qua cờ
--model, ví dụanthropic/claude-opus-4-6).
3 dự án điên rồ nhất trong 72 giờ đầu
1. Morpho-Logic Engine — xoá sổ transformer bằng tay không
Harry00 dùng ml-intern để dựng một paradigm hoàn toàn mới, không neural network, không gradient, không backprop, không training data. Chỉ có phép toán bitwise trên vector nhị phân 4096-bit.
- Bộ nhớ: Sparse Distributed Memory với Hamming distance + LSH index (32 hash table, chữ ký 8-bit).
- Binding: XOR (binary, self-inverse, ~95.000 ops/sec) + FFT circular convolution (HRR, ~10.500 ops/sec).
- Reasoning: Hopfield attention coarse → binary relaxation qua simulated annealing tinh.
- Throughput: 22M vectors/sec Hamming batch, routing latency 2.7ms trên 50K memory.
Lấy cảm hứng từ Kanerva's Sparse Distributed Memory, Holographic Reduced Representations và Modern Hopfield Networks — những dòng nghiên cứu bị lãng quên từ thập niên 80–90. Nhiều năm nghiên cứu, dựng trong 2 ngày.
2. LoopLM × BitNet b1.58 — vừa sâu vô hạn, vừa gần như không tốn bộ nhớ
Một user khác ghép LoopLM (recurrent-depth transformer của ByteDance, chia sẻ layer để tạo "độ sâu vô hạn" qua vòng lặp) với BitNet b1.58 (trọng số ternary 1.58-bit). Kết quả: model vừa có depth tuỳ biến vừa tiêu thụ gần như không memory mỗi tham số. Trên lý thuyết đây là hướng đi để chạy LLM cỡ lớn trên phần cứng edge.
3. Limbic-Modulated Reasoning Agent — attention mô phỏng não người
daniel8919 dựng một attention mechanism mô phỏng mạch thalamo-cortical. Thalamus trong não người đóng vai trò "cổng" — quyết định thông tin nào được phép chạm tới cortex. Dự án xây một learnable gate bắt chước cơ chế này cho các attention head, kết hợp EEG dataset và vòng lặp reinforcement learning. Nguồn: các paper 2025–2026 từ MIT, Harvard, UF.
Giới hạn & chi phí
- Incentive launch: $1.000 GPU credits + Anthropic credits cho early adopters.
- Infra: Space public chạy trên CPU với option upgrade GPU; training nghiêm túc đẩy qua HF Jobs.
- Self-hosted CLI: user tự bring key
ANTHROPIC_API_KEY,HF_TOKEN,GITHUB_TOKEN. Cài quauv sync+uv tool install -e .. - Cảnh báo: chất lượng dữ liệu, licensing và consent vẫn là vấn đề cho domain nhạy cảm như education và healthcare.
Tiếp theo là gì
Nếu đường cong hiện tại giữ vững, ml-intern không chỉ là công cụ mà là platform brute-force ý tưởng cho cộng đồng ML. Kỳ vọng hợp lý cho vài tháng tới: integration sâu hơn với TRL/Accelerate, mở rộng PostTrainBench, và — quan trọng nhất — một vài kiến trúc agent-generated sẽ được cộng đồng validate nghiêm túc. Một trong ba thử nghiệm trên cũng có thể chỉ là curiosity; nhưng khi 500 shot được bắn mỗi giờ, xác suất ít nhất một trúng không còn nhỏ.
Nguồn: huggingface/ml-intern, MarkTechPost, EdTech Innovation Hub, @akseljoonas.
