- Looped transformer và Energy-Based Model thực ra cùng một thuật toán gradient descent.
- Nhưng sự tương đương này không tự động đúng — nó đòi một ràng buộc Jacobian mà transformer thường không thỏa.
TL;DR
Một quan sát gọn mà thay đổi cách nhìn kiến trúc mới: looped transformer (lặp lại cùng một block N lần với residual) và EBM inference (gradient descent trên một scalar energy) là cùng một thuật toán, với điều kiện block(x) = −η∇E(x). Điều kiện đó không tự nhiên đúng — Jacobian của block phải symmetric — và Dmitry đã đề xuất cách fix. Góc nhìn này biến “looping” từ mẹo chia sẻ trọng số thành chính thủ tục tối ưu của một EBM.
Ý tưởng mới là gì
Tweet của @haoqik322 viết hai dòng sát nhau:
- EBM inference:
x ← x − η∇E(x) - Looped transformer (residual):
x ← x + block(x)
Nhìn lướt có vẻ là hai thứ khác nhau. Nhưng nếu đặt block(x) = −η∇E(x) với E là một scalar, hai cập nhật đó đồng nhất. Nói cách khác: mỗi vòng lặp của một looped transformer có thể được đọc như một bước gradient descent trên một hàm năng lượng vô hình nào đó.
Vì sao điều này quan trọng
Looped transformer thường được bán như là “tiết kiệm tham số” — cùng một block, chạy đi chạy lại để giả depth. Nhưng dưới ống kính EBM, looping không phải hack tiết kiệm; nó là thủ tục inference của một optimizer. Điều đó giải thích được loạt kết quả kinh nghiệm gần đây: linear looped transformer học được multi-step preconditioned gradient descent cho in-context linear regression; test-time thinking (chạy thêm vài vòng) giúp model tốt hơn trên dữ liệu out-of-distribution. Tất cả đều là hành vi tự nhiên nếu model đang tối ưu một cái gì đó thay vì chỉ chạy forward.
Chi tiết kỹ thuật
Sự tương đương không miễn phí. Để tồn tại một scalar E sao cho block = −η∇E, field vector block phải là conservative. Nói bằng ngôn ngữ giải tích: Jacobian của block phải symmetric (vì Hessian của bất kỳ scalar nào cũng symmetric theo định lý Schwarz).
Generic transformer block — self-attention + MLP + norm — không thỏa. Jacobian của nó nói chung bất đối xứng, nghĩa là không có E nào để tương đương. Đó là lý do @haoqik322 ghi chú rằng Dmitry đã cung cấp một giải pháp: thiết kế lại block sao cho Jacobian symmetric, hoặc tham số hóa block trực tiếp như gradient của một scalar energy net.
Một giải pháp “ngoài hoang dã” đang được scale: Energy-Based Transformers (Gladstone et al., 2025) train thẳng một scalar E(x, prediction) và inference bằng gradient descent đến lúc hội tụ. Một số con số:
| Chỉ số | EBT vs Transformer++ |
|---|---|
| Scaling rate (data, batch, params, FLOPs, depth) | cao hơn ~35% |
| System 2 thinking gain (language) | +29% |
| Video modeling scaling (width, params) | +33–34% |
| Image denoising vs Diffusion Transformer | tốt hơn với ít forward pass hơn |
| Scale kiểm chứng | tới 800M params |
Đặt cạnh nhau: feed-forward, looped, EBM, diffusion
| Khung | Inference | Weights | Jacobian block |
|---|---|---|---|
| Feed-forward Transformer | 1 forward pass | unique mỗi layer | tuỳ ý |
| Looped Transformer | lặp cùng block N lần | chia sẻ | thường không symmetric |
| EBM / EBT | iterative argmin E | chia sẻ (energy net) | symmetric (∇E field) |
| Diffusion | iterative denoise | chia sẻ score net | score ≈ ∇log p |
Diffusion đã quen mặt với cộng đồng đúng theo công thức này — score matching chính là xấp xỉ ∇log p. EBT mở rộng ý tưởng ra mọi modality và mọi task, không cần noise schedule.
Use cases
- Test-time thinking: chạy thêm bước gradient descent trên scalar energy, chất lượng tăng đặc biệt trên OOD — EBT report gain càng lớn khi dữ liệu càng xa distribution train.
- Unified reasoning: cùng một cơ chế cho text, image, video — không cần RL reward model hay verifier riêng.
- Parameter-efficient depth: looped TF với d=8 đã giải được induction head trên sequence 1000 tokens khi landscape được reshape bằng energy-entropy regularization.
- Giải thích in-context learning: Can Looped Transformers Learn Multi-step Gradient Descent? chỉ ra global minimizer của linear looped TF chính là preconditioned GD adapt theo data.
Giới hạn & chi phí
- Inference đắt hơn feed-forward: mỗi bước cần backward pass để tính
∇E. - Scale mới kiểm đến 800M params. Hiệu ứng ở 7B+ chưa có bằng chứng.
- Ràng buộc Jacobian symmetric là constraint kiến trúc thật. Pretrained transformer hiện hành không tự nhiên thỏa → phải train lại.
- Loss landscape non-convex, cần regularization đặc thù (funnel geometry, Tsallis entropy).
Điều gì tiếp theo
Ba câu hỏi đáng theo dõi trong 12 tháng tới: (1) EBT có scale quá 1B mà vẫn giữ được 35% lợi thế không; (2) có pretrained transformer “xấp xỉ symmetric” nào đủ để convert sang EBM inference mà không train lại từ đầu; (3) adaptive loop exit — dừng lặp khi energy hội tụ — có thể thay thế cơ chế “thinking budget” hiện tại của các reasoning model hay không.
Nếu câu trả lời nghiêng về phía có, thì “depth” của một mô hình sẽ không còn là số layer, mà là số bước gradient descent nó chọn chạy cho mỗi input.
Nguồn: @haoqik322, Gladstone et al. 2025, EBT blog, arXiv 2410.08292, arXiv 2601.09588.
