TIDE: khi mỗi token chọn tầng riêng — early exit per-token giúp LLM inference nhanh hơn 7.2%

TL;DR

LLM inference đang lãng phí compute một cách hệ thống: mỗi token đi qua toàn bộ 32+ tầng transformer, bất kể nó là từ "the" hay một bước suy luận khó. TIDE (Token-Informed Depth Execution) — paper arxiv 2603.21365 ngày 22/03/2026 của Jaber & Jaber — giải bài toán này bằng cách bolt các tiny MLP router (~4 MB, ~0.5M tham số mỗi cái) lên một model đông lạnh. Router dự đoán mỗi token đã "converged" chưa và cho thoát sớm khỏi stack transformer. Calibrate 2,000 sample WikiText trong dưới 3 phút trên 1 GPU. Không retrain, không đổi kiến trúc, pip install tide-inference là chạy.

Có gì mới

Ý tưởng early-exit cho transformer không mới — SpecEE, LayerSkip, CALM đều đã thử. Nhưng hầu hết phải fine-tune lại model hoặc đổi training objective. TIDE đi hướng khác: giữ nguyên trọng số gốc và chỉ train router ngoài.

Mỗi router: MLP 2 tầng, bottleneck dim 128, binary classifier trên hidden state
Signal học: cosine similarity giữa hidden state tại checkpoint layer và final layer
Loss: Binary Cross-Entropy, 100 epochs, 2,000 mẫu WikiText
Thời gian calibrate: dưới 3 phút trên một GPU đơn
Codebase: 1,308 dòng Python + 1,081 dòng CUDA/C++ (fused kernels)

Engine runtime tự detect GPU (V100 → B200/GB300) và dùng fused CUDA kernel tương ứng, fallback về CPU nếu cần. Hỗ trợ float32 / float16 / bfloat16.

Tại sao lại quan trọng lúc này

Reasoning model đang burn token như không có ngày mai. Một query dạng chain-of-thought có thể phát ra hàng nghìn thinking token, và phần lớn trong số đó là "ok", "so", "wait", "let me" — các filler token mà hidden state tại tầng 11 đã gần như trùng với final layer. Với threshold mặc định 0.85, router của TIDE chỉ cho thoát những token có hidden state >98% tương đồng với output của final layer, nên quality impact ở mức thống kê là không đáng kể, trong khi compute tiết kiệm được là thật.

Nói cách khác: bạn đã trả tiền cho cùng 32 matmul để sinh ra chữ "the" và để giải một bước đại số. TIDE tách hai case đó ra.

Technical facts

Benchmark công bố trên A100-SXM4-40GB, bf16:

Model	Baseline	TIDE	Gain
DeepSeek R1 Distill 8B — prefill latency	39.08 ms	36.26 ms	−7.2%
Qwen3 8B — prefill latency	46.82 ms	44.14 ms	−5.7%
DeepSeek R1 Distill 8B — throughput batch 1	973 tok/s	1,037 tok/s	+6.5%
Qwen3 8B — throughput batch 8	1,781 tok/s	1,926 tok/s	+8.1%

Chi tiết bất ngờ từ DeepSeek R1 Distill 8B: 100% prefill exit rate — 5% tokens thoát ở layer 11, phần còn lại ở layer 31 (thay vì layer 32 cuối). Trong autoregressive decode một bài toán multi-step với 95 unique output token, 98–99% token thoát sớm và đáp án vẫn đúng.

So với các hướng early-exit khác

SpecEE, LayerSkip: cần fine-tune hoặc thay đổi training objective. TIDE thì không — router train riêng trên model đông lạnh.
Speculative decoding: cần một draft model thứ hai. TIDE chỉ thêm ~4 MB router cho cùng một model gốc.
Quantization: giảm bits nhưng vẫn đi hết tầng. TIDE orthogonal — dùng chung với FP16/BF16/INT8 được.

Hệ quả: TIDE là một lớp tối ưu có thể stack chồng lên các kỹ thuật khác thay vì thay thế chúng.

Use case phù hợp

Serving reasoning model (DeepSeek R1 Distill, Qwen3-thinking, o-class clone) nơi chain-of-thought dài 10–100× đầu ra thông thường
Inference-time scaling workload: càng nhiều token đầu ra, lợi ích càng nhân
Self-hosted 8B–70B trên A100 / H100 / B200 — hỗ trợ LLaMA, DeepSeek, Qwen, Mistral, Gemma, Phi, Falcon, OPT, GPT-NeoX
Dev muốn prototype nhanh: không phải retrain, không phải đổi pipeline serving

Tác giả lập luận sweetspot thật sự là opus-class + long chain-of-thought: model 70B+ có ~80 tầng redundancy, và inference-time scaling model phát ra 10–100× token hơn so với query thông thường. 8B chỉ là floor — đòn bẩy đúng nghĩa nằm ở tầng cao hơn.

Limitations & pricing

Miễn phí, mã nguồn mở Apache 2.0
Benchmark công bố dừng ở 8B trên A100; claim 70B là suy luận từ methodology, chưa đo trong paper
Threshold 0.85 là statistical guarantee — có thể có token diverge ở edge case
Paper chỉ demo trên WikiText calibration + một bài math multi-step. Downstream eval rộng (MMLU, HumanEval, GSM8K, AIME) không xuất hiện trong abstract
Tác giả tie TIDE vào sản phẩm infra của họ (runinfra.ai); paper thì độc lập, code Apache 2.0

What's next

Luận điểm compounding của nhóm tác giả khá thú vị: depth × output length. Nếu đúng, bài toán nóng kế tiếp sẽ là chứng minh công thức này mở rộng lên model 70B+ với chain-of-thought dài 10k–100k token — đúng class workload mà o1/o3 clone và DeepSeek R1 full đang chạy. Nếu 70B đi kèm CoT dài mà lợi ích giữ tuyến tính hoặc tốt hơn tuyến tính, TIDE sẽ không còn là curiosity 7% mà trở thành layer mặc định trong mọi serving stack self-hosted.

Thực tế đáng chờ: câu hỏi mở là liệu "convergence signal" dựa trên cosine similarity có còn reliable khi output là structured generation (JSON, code) thay vì prose — những domain mà mỗi token đều mang ràng buộc cú pháp cao.

Code: github.com/RightNow-AI/TIDE. Paper: arxiv 2603.21365. Nguồn gốc thread: @Akashi203 trên X.

TIDE: khi mỗi token chọn tầng riêng — early exit per-token giúp LLM inference nhanh hơn 7.2%

TL;DR

Có gì mới

Tại sao lại quan trọng lúc này

Technical facts

So với các hướng early-exit khác

Use case phù hợp

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7