- TIDE bolt tiny MLP routers (~4MB) lên model đông lạnh, cho phép token "the" và token reasoning thoát ở tầng khác nhau.
- Calibrate 3 phút, không retrain, đạt 98–99% early-exit rate khi decode multi-step math mà đáp án không đổi.
TL;DR
LLM inference đang lãng phí compute một cách hệ thống: mỗi token đi qua toàn bộ 32+ tầng transformer, bất kể nó là từ "the" hay một bước suy luận khó. TIDE (Token-Informed Depth Execution) — paper arxiv 2603.21365 ngày 22/03/2026 của Jaber & Jaber — giải bài toán này bằng cách bolt các tiny MLP router (~4 MB, ~0.5M tham số mỗi cái) lên một model đông lạnh. Router dự đoán mỗi token đã "converged" chưa và cho thoát sớm khỏi stack transformer. Calibrate 2,000 sample WikiText trong dưới 3 phút trên 1 GPU. Không retrain, không đổi kiến trúc, pip install tide-inference là chạy.
Có gì mới
Ý tưởng early-exit cho transformer không mới — SpecEE, LayerSkip, CALM đều đã thử. Nhưng hầu hết phải fine-tune lại model hoặc đổi training objective. TIDE đi hướng khác: giữ nguyên trọng số gốc và chỉ train router ngoài.
- Mỗi router: MLP 2 tầng, bottleneck dim 128, binary classifier trên hidden state
- Signal học: cosine similarity giữa hidden state tại checkpoint layer và final layer
- Loss: Binary Cross-Entropy, 100 epochs, 2,000 mẫu WikiText
- Thời gian calibrate: dưới 3 phút trên một GPU đơn
- Codebase: 1,308 dòng Python + 1,081 dòng CUDA/C++ (fused kernels)
Engine runtime tự detect GPU (V100 → B200/GB300) và dùng fused CUDA kernel tương ứng, fallback về CPU nếu cần. Hỗ trợ float32 / float16 / bfloat16.
Tại sao lại quan trọng lúc này
Reasoning model đang burn token như không có ngày mai. Một query dạng chain-of-thought có thể phát ra hàng nghìn thinking token, và phần lớn trong số đó là "ok", "so", "wait", "let me" — các filler token mà hidden state tại tầng 11 đã gần như trùng với final layer. Với threshold mặc định 0.85, router của TIDE chỉ cho thoát những token có hidden state >98% tương đồng với output của final layer, nên quality impact ở mức thống kê là không đáng kể, trong khi compute tiết kiệm được là thật.
Nói cách khác: bạn đã trả tiền cho cùng 32 matmul để sinh ra chữ "the" và để giải một bước đại số. TIDE tách hai case đó ra.
Technical facts
Benchmark công bố trên A100-SXM4-40GB, bf16:
| Model | Baseline | TIDE | Gain |
|---|---|---|---|
| DeepSeek R1 Distill 8B — prefill latency | 39.08 ms | 36.26 ms | −7.2% |
| Qwen3 8B — prefill latency | 46.82 ms | 44.14 ms | −5.7% |
| DeepSeek R1 Distill 8B — throughput batch 1 | 973 tok/s | 1,037 tok/s | +6.5% |
| Qwen3 8B — throughput batch 8 | 1,781 tok/s | 1,926 tok/s | +8.1% |
Chi tiết bất ngờ từ DeepSeek R1 Distill 8B: 100% prefill exit rate — 5% tokens thoát ở layer 11, phần còn lại ở layer 31 (thay vì layer 32 cuối). Trong autoregressive decode một bài toán multi-step với 95 unique output token, 98–99% token thoát sớm và đáp án vẫn đúng.
So với các hướng early-exit khác
- SpecEE, LayerSkip: cần fine-tune hoặc thay đổi training objective. TIDE thì không — router train riêng trên model đông lạnh.
- Speculative decoding: cần một draft model thứ hai. TIDE chỉ thêm ~4 MB router cho cùng một model gốc.
- Quantization: giảm bits nhưng vẫn đi hết tầng. TIDE orthogonal — dùng chung với FP16/BF16/INT8 được.
Hệ quả: TIDE là một lớp tối ưu có thể stack chồng lên các kỹ thuật khác thay vì thay thế chúng.
Use case phù hợp
- Serving reasoning model (DeepSeek R1 Distill, Qwen3-thinking, o-class clone) nơi chain-of-thought dài 10–100× đầu ra thông thường
- Inference-time scaling workload: càng nhiều token đầu ra, lợi ích càng nhân
- Self-hosted 8B–70B trên A100 / H100 / B200 — hỗ trợ LLaMA, DeepSeek, Qwen, Mistral, Gemma, Phi, Falcon, OPT, GPT-NeoX
- Dev muốn prototype nhanh: không phải retrain, không phải đổi pipeline serving
Tác giả lập luận sweetspot thật sự là opus-class + long chain-of-thought: model 70B+ có ~80 tầng redundancy, và inference-time scaling model phát ra 10–100× token hơn so với query thông thường. 8B chỉ là floor — đòn bẩy đúng nghĩa nằm ở tầng cao hơn.
Limitations & pricing
- Miễn phí, mã nguồn mở Apache 2.0
- Benchmark công bố dừng ở 8B trên A100; claim 70B là suy luận từ methodology, chưa đo trong paper
- Threshold 0.85 là statistical guarantee — có thể có token diverge ở edge case
- Paper chỉ demo trên WikiText calibration + một bài math multi-step. Downstream eval rộng (MMLU, HumanEval, GSM8K, AIME) không xuất hiện trong abstract
- Tác giả tie TIDE vào sản phẩm infra của họ (runinfra.ai); paper thì độc lập, code Apache 2.0
What's next
Luận điểm compounding của nhóm tác giả khá thú vị: depth × output length. Nếu đúng, bài toán nóng kế tiếp sẽ là chứng minh công thức này mở rộng lên model 70B+ với chain-of-thought dài 10k–100k token — đúng class workload mà o1/o3 clone và DeepSeek R1 full đang chạy. Nếu 70B đi kèm CoT dài mà lợi ích giữ tuyến tính hoặc tốt hơn tuyến tính, TIDE sẽ không còn là curiosity 7% mà trở thành layer mặc định trong mọi serving stack self-hosted.
Thực tế đáng chờ: câu hỏi mở là liệu "convergence signal" dựa trên cosine similarity có còn reliable khi output là structured generation (JSON, code) thay vì prose — những domain mà mỗi token đều mang ràng buộc cú pháp cao.
Code: github.com/RightNow-AI/TIDE. Paper: arxiv 2603.21365. Nguồn gốc thread: @Akashi203 trên X.

