TimesFM 2.5: 200M params dẫn đầu GIFT-Eval zero-shot forecasting

TL;DR

Google Research vừa ship TimesFM 2.5 - foundation model cho time-series forecasting. Mô hình decoder-only transformer, 200M params (giảm 60% so v2.0), context dài tới 16,384 time steps (tăng 8 lần). Pre-trained trên 10 tỷ time points, đứng #1 GIFT-Eval zero-shot trên 28 datasets cả về MASE lẫn CRPS. Open-source Apache 2.0, dùng được qua pip, HuggingFace, BigQuery ML, sắp lên Vertex AI Model Garden.

So sánh TimesFM 2.0 vs 2.5 — TimesFM 2.5 nhỏ hơn 60% nhưng context dài hơn 8 lần so v2.0.

TimesFM là gì

TimesFM là Time Series Foundation Model do Google Research phát triển. Khác với ARIMA cần fit per-dataset, hay Prophet cần khai báo seasonality, TimesFM cho phép zero-shot forecasting: cho input chuỗi số, model trả về dự đoán ngay không cần training thêm.

Kiến trúc decoder-only transformer, tương tự GPT family nhưng input là patches của time-series thay vì token text. Paper gốc công bố tại ICML 2024 ("A decoder-only foundation model for time-series forecasting"), repo trên GitHub đã đạt 24.1k stars.

Phiên bản 2.5 ship ngày 15/09/2025 - là update lớn nhất kể từ v1.0: vừa cắt nửa params, vừa tăng context 8 lần.

Điểm mới của v2.5

Hai con số đập vào mặt: 200M params (giảm từ 500M ở v2.0) và 16,384 context (tăng từ 2,048). Cùng lúc giảm size và tăng khả năng nhớ là điều hiếm gặp - thường phải đánh đổi.

Cách làm: tối ưu attention mechanism + cải thiện cách represent time-series patches. Kết quả: nhẹ hơn, deploy edge dễ hơn, mà capture được multi-seasonal structure, regime breaks và low-frequency components trong cùng 1 context window - không phải tiling hay stitching hierarchical.

Bỏ frequency indicator: v2.0 yêu cầu khai báo tần suất (daily/hourly/weekly), v2.5 tự infer
Inference flags mới: flip-invariance và positivity inference tăng robustness
Quantile head 30M params optional: cho continuous quantile forecasts up to 1K horizon
Mean + 10 percentile: từ p10 đến p90, đủ làm probabilistic forecast

Training data - 10 tỷ time points

Một foundation model chỉ ngon khi training data đa dạng. TimesFM pre-trained trên 10 tỷ time points từ nhiều domain: energy, finance, retail, weather, transportation, web traffic, IoT sensors. Lý do quan trọng: model học được "thế nào là time-series" generalize - cycle, trend, seasonality, regime shift - thay vì chỉ memorize 1 domain cụ thể.

Đây là sự khác biệt căn bản với approach cũ: ARIMA học từng series riêng (per-dataset fitting), TimesFM học "shape của time-series nói chung" rồi apply zero-shot. Tương tự cách GPT học "shape của ngôn ngữ" trước khi viết được mọi chủ đề.

Benchmark - ngôi đầu GIFT-Eval

GIFT-Eval là leaderboard chuẩn cho zero-shot forecasting, gồm 28 datasets đa domain (energy, finance, retail, web). TimesFM 2.5 đứng #1 cả hai trục:

MASE (Mean Absolute Scaled Error) - đo point accuracy: dẫn đầu
CRPS (Continuous Ranked Probability Score) - đo probabilistic accuracy: dẫn đầu

Hiếm có model nào dẫn đầu cả 2 metric cùng lúc - thường mạnh point thì yếu probabilistic và ngược lại. Lý do TimesFM 2.5 cân được cả 2: quantile head 30M params dedicated cho probabilistic, tách khỏi backbone point forecast - mỗi part tối ưu cho task riêng thay vì share weights chung.

Context dài 16K cũng giúp: với multi-year data, model có đủ history để estimate distribution width chính xác - thứ models context ngắn phải ước lượng từ ít sample.

TimesFM 2.5 - zero-shot forecast dẫn đầu GIFT-Eval — 3 điểm bán hàng: zero-shot, dẫn đầu GIFT-Eval, smaller & longer context.

So sánh đối thủ

Model	Params	Context	GIFT-Eval rank	Điểm mạnh
TimesFM 2.5	200M	16,384	#1	Cân point + probabilistic, BigQuery native
Chronos-2 (Amazon)	~700M	~2,048	Top 5	Multivariate (nhiều sensor)
Moirai-MoE (Salesforce)	~700M	~5,000	Top 10	Mixture of experts cho multivariate
Lag-Llama	~100M	~1,024	Top 15	Zero-shot tốt nhưng kém TimesFM
MOMENT (CMU)	~340M	~512	Top 20	Academic, chưa có production deployment

Đối thủ chính TimesFM hiện tại là Chronos-2 của Amazon - đặc biệt mạnh trong scenarios multivariate có nhiều sensor tương tác (vibration + temperature + power kiểu manufacturing). Nếu dataset univariate hoặc ít covariate → TimesFM thắng. Nếu multivariate phức tạp → cân nhắc Chronos-2 hoặc Moirai-MoE.

Use case thực tế

Predictive maintenance (manufacturing): detect anomaly trên CNC, motor, compressor qua vibration + temperature + power. Báo cáo Pebblous cho thấy ROI 10:1 đến 30:1 trong 12-18 tháng, giảm 70-75% equipment failures, 45-72% unplanned downtime. Một sự cố heavy equipment = $260K-$532K, phòng được vài lần/năm là tiết kiệm hàng triệu.

Energy sector: solar/wind generation forecasting, grid demand prediction. Context 16K cho phép capture multi-year weather patterns - thứ ARIMA và Prophet không kham nổi. Giảm 15-20% RMSE so phương pháp truyền thống.

Logistics & supply chain: demand forecasting + inventory optimization. 1% cải thiện accuracy = tiết kiệm hàng triệu USD chi phí inventory. TimesFM xử cùng lúc seasonal spikes (Black Friday, Tết) và long-term trends.

BigQuery users: integration BigQuery ML - forecast SQL native, không cần dựng Python env. Đây là moat khó copy của Google so với Chronos/Moirai - đối thủ không có production deployment ngang tầm.

Hạn chế cần biết

Multivariate yếu: nhiều sensor tương tác → Chronos-2 hoặc MOIRAI-MoE chính xác hơn
High-entropy domains: Web/CloudOps, event-driven scenarios → accuracy giảm rõ rệt
Data quality: missing values, noise, sensor drift làm performance xuống nhanh - cần preprocessing kỹ
Domain pattern mạnh: dataset có pattern rõ + đủ history → classical ARIMA fine-tuned có thể chính xác hơn

Lời khuyên: dùng TimesFM 2.5 cho baseline zero-shot, A/B với classical methods trên 1-2 series tiêu biểu trước khi roll out toàn bộ pipeline.

Quick start

pip install timesfm[torch]

import timesfm, numpy as np

model = timesfm.TimesFM_2p5_200M_torch.from_pretrained(
    "google/timesfm-2.5-200m-pytorch"
)

point_forecast, quantile_forecast = model.forecast(
    horizon=6,
    inputs=[np.array([10, 12, 11, 14, 13, 15, 14, 16, 15, 17])]
)

10 dòng code. Không cần training, không cần khai báo seasonality, không cần fit per-dataset. Bắt model làm việc luôn.

Fine-tune nếu cần: dùng HuggingFace Transformers + PEFT (LoRA) - giữ base model frozen, chỉ train adapter nhẹ. Phù hợp khi có ~vài chục đến vài trăm series in-domain.

Deployment options

pip install timesfm[torch] hoặc [flax] - self-host bất cứ đâu có GPU
HuggingFace: google/timesfm-2.5-200m-pytorch - load thẳng từ Hub
BigQuery ML: SQL-native, không cần Python env, dùng được ngay trong query data warehouse
Google Sheets: function-based, cho non-engineer
Vertex AI Model Garden: dockerized endpoint, managed scaling - sắp release

Ai nên thử ngay

Team có nhiều time series nhưng ít history mỗi series - zero-shot ăn ngay
BigQuery users cần forecast trong workflow SQL hiện tại
Manufacturing chạy predictive maintenance, đặc biệt univariate
Energy & utilities cần forecast demand/supply context dài
Đội không có background time series - không phải tune ARIMA p,d,q thủ công

Kết

TimesFM 2.5 là step quan trọng cho time-series forecasting: nhẹ hơn, context dài hơn, zero-shot ăn ngay, ngôi đầu GIFT-Eval. Cộng thêm BigQuery + Vertex integration - Google đang biến forecasting thành commodity, giống cách họ làm với search hay translate trước đây.

Đối thủ open-source khó bắt kịp về production deployment, nhưng vẫn còn cửa ở multivariate (Chronos-2) và domain-specific (Moirai). Cuộc đua time-series foundation model còn nhiều chương.

via Google Research - TimesFM GitHub repo