- Nhóm Google Research đứng sau Titans vừa công bố Memory Caching — kỹ thuật chụp snapshot bộ nhớ định kỳ giúp recurrent model có dung lượng nhớ tăng theo độ dài chuỗi nhưng chi phí suy luận gần như không đổi.
- Biến thể Sparse Selective Caching chỉ check vài snapshot mỗi token và gần thu hẹp được khoảng cách với Transformer trên recall.
TL;DR
Transformer nhớ mọi thứ nhưng chi phí O(L²). RNN rẻ nhưng bộ nhớ cố định, thông tin cũ bị ghi đè. Paper mới của Google Research (arXiv 2602.24281, 27/02/2026) giới thiệu Memory Caching (MC): chụp snapshot trạng thái nhớ của RNN theo chu kỳ, khi cần thì query cả bộ nhớ hiện tại lẫn snapshot đã lưu. Kết quả: recurrent model có bộ nhớ "lớn dần" theo độ dài chuỗi, chi phí suy luận gần như không đổi, và biến thể Sparse Selective Caching (SSC) gần bắt kịp Transformer trên các bài recall — trong khi vẫn giữ tốc độ của RNN.
Điểm mới
MC không phải là một kiến trúc mới. Nó là một lớp bọc có thể gắn vào bất kỳ recurrent model nào — Linear Attention, Sliding Window Linear Attention, Deep Linear Attention, và đặc biệt là Titans (mô hình cùng nhóm tác giả công bố 01/2025).
Cơ chế: chia chuỗi thành các segment. Cuối mỗi segment, lưu một snapshot trạng thái nhớ. Khi mô hình cần hồi tưởng context xa, nó aggregate thông tin từ bộ nhớ hiện tại + các snapshot đã cache. Nghe đơn giản, nhưng lõi toán đằng sau cho phép điều chỉnh rõ ràng giữa O(L) của RNN và O(L²) của Transformer.
Nhóm tác giả đề xuất bốn biến thể:
- Residual Memory — cộng tổng đơn giản giữa bộ nhớ hiện tại và các snapshot.
- Gated Residual Memory (GRM) — thêm cổng gate phụ thuộc input để cân nặng từng snapshot.
- Memory Soup — nội suy tham số của các memory module đã cache (khác GRM khi memory phi tuyến).
- Sparse Selective Caching (SSC) — router kiểu Mixture-of-Experts chỉ chọn top-k snapshot liên quan nhất cho mỗi token.
Tại sao đáng quan tâm
Suốt hai năm qua, cộng đồng đã cố gắng làm recurrent model (Mamba, RWKV, RetNet) thay thế Transformer vì chi phí tuyến tính. Nhưng mọi lần đánh giá serious trên bài recall đều cho ra cùng kết luận: RNN nhanh hơn 2–5×, nhưng kém Transformer 10–20 điểm phần trăm về chính xác. Lý do đã rõ — bộ nhớ cố định không thể gánh được long-context.
MC đóng hầu hết khoảng cách đó mà không biến recurrent model thành Transformer trá hình. Điều này đặc biệt quan trọng cho suy luận trên mobile, edge, hoặc các service có QPS cao — nơi O(L²) của KV cache là killer về chi phí.
Số liệu kỹ thuật
Quy mô thực nghiệm:
- Mô hình: 760M params trên 30B tokens, 1.3B params trên 100B tokens.
- Context window test: 2K / 4K / 8K / 16K / 32K. Mặc định 4K, segment length 256.
- Dataset: FineWeb + Long-Data-Collections.
Kết quả language modeling + common-sense reasoning ở mức 1.3B (PPL thấp hơn = tốt hơn):
| Model | Wiki PPL ↓ | LMB PPL ↓ | Avg ↑ |
|---|---|---|---|
| Transformer++ | 17.92 | 17.73 | 53.19 |
| Titans (LMM) baseline | 15.60 | 11.41 | 56.82 |
| Titans + GRM | 15.37 | 11.29 | 58.33 |
| Titans + Memory Soup | 15.42 | 11.31 | 57.91 |
| Titans + SSC | 15.44 | 11.35 | 57.58 |
Gain so với Titans baseline: +0.8% language modeling, +1.51% trung bình trên downstream tasks. Trên Needle-In-A-Haystack (passkey, numerical, UUID) MC cải thiện nhất quán mọi base architecture.
So sánh phức tạp
| Cấu hình | Complexity | Ghi chú |
|---|---|---|
| RNN thuần (N=1) | O(L) | Bộ nhớ cố định |
| Segment log(L) | O(L log L) | Hiệu quả cao, recall thấp hơn |
| Segment size C cố định | O(L²/C) | Giống Transformer nhưng hệ số nhỏ hơn |
| Segment size = 1 | O(L²) | Quy về gated global attention |
| Transformer | O(L²) | Full attention |
Throughput huấn luyện của biến thể SSC gần sát RNN gốc — overhead không đáng kể, đặc biệt từ 16K tokens trở lên là MC bắt đầu vượt trội rõ ràng về chi phí.
Use case
- Document understanding — hợp đồng, paper khoa học, báo cáo kỹ thuật dài. MC thắng nhất quán trên LongBench (NarrativeQA, QasperQA, HotpotQA, GovReport).
- Code analysis — reasoning trên codebase lớn nơi Transformer đụng trần context/chi phí.
- Long-form generation — tiểu thuyết, technical writing cần coherence tầm xa.
- Chat agent context dài — nơi chi phí per-token quan trọng hơn peak accuracy.
- Retrieval in-context — SWDE, Natural Questions, DROP, FDA, SQuAD, TriviaQA.
Hạn chế & chi phí
- Transformer vẫn thắng về peak recall — MC thu hẹp chứ chưa xoá sạch khoảng cách.
- Chưa có bảo đảm lý thuyết về chất lượng recall hay sai số nén.
- Chiến lược segment vẫn là heuristic (cố định hoặc log); segmentation học được chưa được khám phá.
- Router của SSC còn đơn giản.
- Chưa đánh giá ở độ dài cực đoan (32K–1M tokens).
- Không có số liệu wall-clock hay peak memory trong paper.
- Chưa test trên vision, audio, hay các task adversarial (counting, parity).
- Chi phí / availability: đây là research preprint, không phải sản phẩm. Chưa có API trả phí. Code release dự kiến theo pattern quen thuộc của Google Research — theo dõi GitHub của nhóm tác giả.
Tiếp theo
Nhóm tác giả nêu các hướng mở rộng: phân tích memory phi tuyến / deep sâu hơn, segmentation học được thay vì heuristic, test ở >32K tokens, và mở rộng sang non-language modality. Với tốc độ phát hành gần đây của nhóm (Titans 01/2025 → Titans Revisited 10/2025 → MC 02/2026), nhiều khả năng sẽ có follow-up hoặc reference implementation trong vòng vài tháng.
Nguồn: arXiv 2602.24281, Hugging Face Papers, Titans paper.



