Looped Transformer chính là EBM inference: một phương trình, hai thế giới

TL;DR

Một quan sát gọn mà thay đổi cách nhìn kiến trúc mới: looped transformer (lặp lại cùng một block N lần với residual) và EBM inference (gradient descent trên một scalar energy) là cùng một thuật toán, với điều kiện block(x) = −η∇E(x). Điều kiện đó không tự nhiên đúng — Jacobian của block phải symmetric — và Dmitry đã đề xuất cách fix. Góc nhìn này biến “looping” từ mẹo chia sẻ trọng số thành chính thủ tục tối ưu của một EBM.

Ý tưởng mới là gì

Tweet của @haoqik322 viết hai dòng sát nhau:

EBM inference: x ← x − η∇E(x)
Looped transformer (residual): x ← x + block(x)

Nhìn lướt có vẻ là hai thứ khác nhau. Nhưng nếu đặt block(x) = −η∇E(x) với E là một scalar, hai cập nhật đó đồng nhất. Nói cách khác: mỗi vòng lặp của một looped transformer có thể được đọc như một bước gradient descent trên một hàm năng lượng vô hình nào đó.

Vì sao điều này quan trọng

Looped transformer thường được bán như là “tiết kiệm tham số” — cùng một block, chạy đi chạy lại để giả depth. Nhưng dưới ống kính EBM, looping không phải hack tiết kiệm; nó là thủ tục inference của một optimizer. Điều đó giải thích được loạt kết quả kinh nghiệm gần đây: linear looped transformer học được multi-step preconditioned gradient descent cho in-context linear regression; test-time thinking (chạy thêm vài vòng) giúp model tốt hơn trên dữ liệu out-of-distribution. Tất cả đều là hành vi tự nhiên nếu model đang tối ưu một cái gì đó thay vì chỉ chạy forward.

Chi tiết kỹ thuật

Sự tương đương không miễn phí. Để tồn tại một scalar E sao cho block = −η∇E, field vector block phải là conservative. Nói bằng ngôn ngữ giải tích: Jacobian của block phải symmetric (vì Hessian của bất kỳ scalar nào cũng symmetric theo định lý Schwarz).

Generic transformer block — self-attention + MLP + norm — không thỏa. Jacobian của nó nói chung bất đối xứng, nghĩa là không có E nào để tương đương. Đó là lý do @haoqik322 ghi chú rằng Dmitry đã cung cấp một giải pháp: thiết kế lại block sao cho Jacobian symmetric, hoặc tham số hóa block trực tiếp như gradient của một scalar energy net.

Một giải pháp “ngoài hoang dã” đang được scale: Energy-Based Transformers (Gladstone et al., 2025) train thẳng một scalar E(x, prediction) và inference bằng gradient descent đến lúc hội tụ. Một số con số:

Chỉ số	EBT vs Transformer++
Scaling rate (data, batch, params, FLOPs, depth)	cao hơn ~35%
System 2 thinking gain (language)	+29%
Video modeling scaling (width, params)	+33–34%
Image denoising vs Diffusion Transformer	tốt hơn với ít forward pass hơn
Scale kiểm chứng	tới 800M params

Đặt cạnh nhau: feed-forward, looped, EBM, diffusion

Khung	Inference	Weights	Jacobian block
Feed-forward Transformer	1 forward pass	unique mỗi layer	tuỳ ý
Looped Transformer	lặp cùng block N lần	chia sẻ	thường không symmetric
EBM / EBT	iterative argmin E	chia sẻ (energy net)	symmetric (∇E field)
Diffusion	iterative denoise	chia sẻ score net	score ≈ ∇log p

Diffusion đã quen mặt với cộng đồng đúng theo công thức này — score matching chính là xấp xỉ ∇log p. EBT mở rộng ý tưởng ra mọi modality và mọi task, không cần noise schedule.

Use cases

Test-time thinking: chạy thêm bước gradient descent trên scalar energy, chất lượng tăng đặc biệt trên OOD — EBT report gain càng lớn khi dữ liệu càng xa distribution train.
Unified reasoning: cùng một cơ chế cho text, image, video — không cần RL reward model hay verifier riêng.
Parameter-efficient depth: looped TF với d=8 đã giải được induction head trên sequence 1000 tokens khi landscape được reshape bằng energy-entropy regularization.
Giải thích in-context learning: Can Looped Transformers Learn Multi-step Gradient Descent? chỉ ra global minimizer của linear looped TF chính là preconditioned GD adapt theo data.

Giới hạn & chi phí

Inference đắt hơn feed-forward: mỗi bước cần backward pass để tính ∇E.
Scale mới kiểm đến 800M params. Hiệu ứng ở 7B+ chưa có bằng chứng.
Ràng buộc Jacobian symmetric là constraint kiến trúc thật. Pretrained transformer hiện hành không tự nhiên thỏa → phải train lại.
Loss landscape non-convex, cần regularization đặc thù (funnel geometry, Tsallis entropy).

Điều gì tiếp theo

Ba câu hỏi đáng theo dõi trong 12 tháng tới: (1) EBT có scale quá 1B mà vẫn giữ được 35% lợi thế không; (2) có pretrained transformer “xấp xỉ symmetric” nào đủ để convert sang EBM inference mà không train lại từ đầu; (3) adaptive loop exit — dừng lặp khi energy hội tụ — có thể thay thế cơ chế “thinking budget” hiện tại của các reasoning model hay không.

Nếu câu trả lời nghiêng về phía có, thì “depth” của một mô hình sẽ không còn là số layer, mà là số bước gradient descent nó chọn chạy cho mỗi input.

Nguồn: @haoqik322, Gladstone et al. 2025, EBT blog, arXiv 2410.08292, arXiv 2601.09588.

Looped Transformer chính là EBM inference: một phương trình, hai thế giới

TL;DR

Ý tưởng mới là gì

Vì sao điều này quan trọng

Chi tiết kỹ thuật

Đặt cạnh nhau: feed-forward, looped, EBM, diffusion

Use cases

Giới hạn & chi phí

Điều gì tiếp theo

Tiếp tục lướt

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

Self-Attention vs Cross-Attention bằng tay: cùng thuật toán, khác đúng một input

How CNNs See Images: 16 Boxes That Cover the Entire Stack

Full Fine-tuning vs Freezing Layers: Khi nào nên đông cứng W₁, W₂?

Google mở mã Magika: model AI nhận diện file type 99% chính xác, 5ms trên CPU