Memory Caching: Google cho RNN bộ nhớ 'biết lớn' mà không trả giá như Transformer

TL;DR

Transformer nhớ mọi thứ nhưng chi phí O(L²). RNN rẻ nhưng bộ nhớ cố định, thông tin cũ bị ghi đè. Paper mới của Google Research (arXiv 2602.24281, 27/02/2026) giới thiệu Memory Caching (MC): chụp snapshot trạng thái nhớ của RNN theo chu kỳ, khi cần thì query cả bộ nhớ hiện tại lẫn snapshot đã lưu. Kết quả: recurrent model có bộ nhớ "lớn dần" theo độ dài chuỗi, chi phí suy luận gần như không đổi, và biến thể Sparse Selective Caching (SSC) gần bắt kịp Transformer trên các bài recall — trong khi vẫn giữ tốc độ của RNN.

Điểm mới

MC không phải là một kiến trúc mới. Nó là một lớp bọc có thể gắn vào bất kỳ recurrent model nào — Linear Attention, Sliding Window Linear Attention, Deep Linear Attention, và đặc biệt là Titans (mô hình cùng nhóm tác giả công bố 01/2025).

Cơ chế: chia chuỗi thành các segment. Cuối mỗi segment, lưu một snapshot trạng thái nhớ. Khi mô hình cần hồi tưởng context xa, nó aggregate thông tin từ bộ nhớ hiện tại + các snapshot đã cache. Nghe đơn giản, nhưng lõi toán đằng sau cho phép điều chỉnh rõ ràng giữa O(L) của RNN và O(L²) của Transformer.

Nhóm tác giả đề xuất bốn biến thể:

Residual Memory — cộng tổng đơn giản giữa bộ nhớ hiện tại và các snapshot.
Gated Residual Memory (GRM) — thêm cổng gate phụ thuộc input để cân nặng từng snapshot.
Memory Soup — nội suy tham số của các memory module đã cache (khác GRM khi memory phi tuyến).
Sparse Selective Caching (SSC) — router kiểu Mixture-of-Experts chỉ chọn top-k snapshot liên quan nhất cho mỗi token.

Tại sao đáng quan tâm

Suốt hai năm qua, cộng đồng đã cố gắng làm recurrent model (Mamba, RWKV, RetNet) thay thế Transformer vì chi phí tuyến tính. Nhưng mọi lần đánh giá serious trên bài recall đều cho ra cùng kết luận: RNN nhanh hơn 2–5×, nhưng kém Transformer 10–20 điểm phần trăm về chính xác. Lý do đã rõ — bộ nhớ cố định không thể gánh được long-context.

MC đóng hầu hết khoảng cách đó mà không biến recurrent model thành Transformer trá hình. Điều này đặc biệt quan trọng cho suy luận trên mobile, edge, hoặc các service có QPS cao — nơi O(L²) của KV cache là killer về chi phí.

Số liệu kỹ thuật

Quy mô thực nghiệm:

Mô hình: 760M params trên 30B tokens, 1.3B params trên 100B tokens.
Context window test: 2K / 4K / 8K / 16K / 32K. Mặc định 4K, segment length 256.
Dataset: FineWeb + Long-Data-Collections.

Kết quả language modeling + common-sense reasoning ở mức 1.3B (PPL thấp hơn = tốt hơn):

Model	Wiki PPL ↓	LMB PPL ↓	Avg ↑
Transformer++	17.92	17.73	53.19
Titans (LMM) baseline	15.60	11.41	56.82
Titans + GRM	15.37	11.29	58.33
Titans + Memory Soup	15.42	11.31	57.91
Titans + SSC	15.44	11.35	57.58

Gain so với Titans baseline: +0.8% language modeling, +1.51% trung bình trên downstream tasks. Trên Needle-In-A-Haystack (passkey, numerical, UUID) MC cải thiện nhất quán mọi base architecture.

So sánh phức tạp

Cấu hình	Complexity	Ghi chú
RNN thuần (N=1)	O(L)	Bộ nhớ cố định
Segment log(L)	O(L log L)	Hiệu quả cao, recall thấp hơn
Segment size C cố định	O(L²/C)	Giống Transformer nhưng hệ số nhỏ hơn
Segment size = 1	O(L²)	Quy về gated global attention
Transformer	O(L²)	Full attention

Throughput huấn luyện của biến thể SSC gần sát RNN gốc — overhead không đáng kể, đặc biệt từ 16K tokens trở lên là MC bắt đầu vượt trội rõ ràng về chi phí.

Use case

Document understanding — hợp đồng, paper khoa học, báo cáo kỹ thuật dài. MC thắng nhất quán trên LongBench (NarrativeQA, QasperQA, HotpotQA, GovReport).
Code analysis — reasoning trên codebase lớn nơi Transformer đụng trần context/chi phí.
Long-form generation — tiểu thuyết, technical writing cần coherence tầm xa.
Chat agent context dài — nơi chi phí per-token quan trọng hơn peak accuracy.
Retrieval in-context — SWDE, Natural Questions, DROP, FDA, SQuAD, TriviaQA.

Hạn chế & chi phí

Transformer vẫn thắng về peak recall — MC thu hẹp chứ chưa xoá sạch khoảng cách.
Chưa có bảo đảm lý thuyết về chất lượng recall hay sai số nén.
Chiến lược segment vẫn là heuristic (cố định hoặc log); segmentation học được chưa được khám phá.
Router của SSC còn đơn giản.
Chưa đánh giá ở độ dài cực đoan (32K–1M tokens).
Không có số liệu wall-clock hay peak memory trong paper.
Chưa test trên vision, audio, hay các task adversarial (counting, parity).
Chi phí / availability: đây là research preprint, không phải sản phẩm. Chưa có API trả phí. Code release dự kiến theo pattern quen thuộc của Google Research — theo dõi GitHub của nhóm tác giả.

Nhóm tác giả nêu các hướng mở rộng: phân tích memory phi tuyến / deep sâu hơn, segmentation học được thay vì heuristic, test ở >32K tokens, và mở rộng sang non-language modality. Với tốc độ phát hành gần đây của nhóm (Titans 01/2025 → Titans Revisited 10/2025 → MC 02/2026), nhiều khả năng sẽ có follow-up hoặc reference implementation trong vòng vài tháng.

Nguồn: arXiv 2602.24281, Hugging Face Papers, Titans paper.