TL;DR

Ngày 29/01/2026, Google Cloud công bố Conversational Analytics in BigQuery ở giai đoạn Preview. Đây là một agent AI chạy bằng Gemini, nhúng thẳng vào BigQuery Studio, cho phép hỏi dữ liệu bằng ngôn ngữ tự nhiên — và quan trọng hơn: agent có thể gọi các hàm BigQuery ML như AI.FORECAST, AI.DETECT_ANOMALIES, AI.GENERATE tự động khi bạn chỉ gõ "Dự báo số đơn hàng tháng tới" hoặc "Tìm ngày bất thường về lượng trips". Không còn phải tự chọn model, tự viết SQL, tự tính confidence interval — agent làm hết, kèm bảng, chart và giải thích vì sao.

Có gì mới

Tuần này @GoogleCloudTech xác nhận Conversational Analytics giờ hỗ trợ "AI functions like forecasting and anomaly detection in chat". Sau khi Conversational Analytics đã GA trên Looker, đợt này Google mang reasoning engine về đúng chỗ dữ liệu đang sống — BigQuery Studio.

Bạn tạo một data agent gắn với một nhóm knowledge source (table, view, UDF, Lakehouse table). Agent nhận metadata tùy chỉnh, instruction kiểu "mặc định filter theo quý mới nhất", và các verified queries (tên cũ: golden queries) để đảm bảo câu trả lời khớp production metrics. Custom glossary + import từ Dataplex Knowledge Catalog giúp agent hiểu đúng tiếng địa phương của doanh nghiệp.

Vì sao đáng quan tâm

Trước đây muốn chạy forecast hay phát hiện bất thường trên BigQuery, bạn phải: (1) biết SQL, (2) biết CREATE MODEL với ARIMA_PLUS, (3) tự train, (4) tự diễn giải confidence interval. Business user gần như bị loại khỏi cuộc chơi — mọi câu hỏi đều phải xếp hàng chờ analyst.

Conversational Analytics trong BigQuery phá rào đó. Agent tự sinh SQL dùng hàm AI.*, tự chọn model, tự chạy, tự tóm tắt kết quả. Bonus: agent cho bạn thấy SQL đã sinh ra để analyst kiểm chứng — không phải black box. Đây là khác biệt cốt lõi với các chatbot data "nói chuyện hay nhưng hay bịa": mọi câu trả lời được grounding vào schema + verified queries thật của team.

Kỹ thuật cần biết

Ba hàm BigQuery ML được hỗ trợ native trong chat và verified queries:

  • AI.FORECAST — dự báo chuỗi thời gian
  • AI.DETECT_ANOMALIES — phát hiện outlier so với lịch sử
  • AI.GENERATE (và biến thể AI.GENERATE_BOOL, _INT, _DOUBLE) — sinh text bằng LLM

Điểm đáng chú ý: AI.DETECT_ANOMALIES chỉ hoạt động với model TimesFM (foundation model time-series mã nguồn mở của Google Research). Các model cũ ARIMA_PLUS / ARIMA_PLUS_XREG / K-means / Autoencoder / PCA vẫn dùng ML.DETECT_ANOMALIES cũ.

Thông số TimesFM trong AI.DETECT_ANOMALIES

Thuộc tínhTimesFM 2.0 (default)TimesFM 2.5
Context window max2,048 điểm15,360 điểm
Các giá trị hợp lệ64, 128, 256, 512, 1024, 204864 … 4096, 8192, 15360
Eval limit (mỗi call)1,024 time points gần nhất1,024 time points gần nhất
Min history3 điểm3 điểm
Threshold mặc địnhanomaly_prob = 0.950.95

Data column chấp nhận INT64, NUMERIC, BIGNUMERIC, FLOAT64. Timestamp column chấp nhận TIMESTAMP, DATE, DATETIME. Output gồm is_anomaly, lower_bound, upper_bound, anomaly_probability, ai_detect_anomalies_status.

Hạ tầng chạy trên Gemini for Google Cloud qua Vertex AI với Dynamic Shared Quota (DSQ) — không có quota cố định mỗi project, thay vào đó dùng pool chung. Giờ cao điểm có thể dính 429 Resource Exhausted tạm thời, retry sau vài giây là xong.

So sánh

AxisSQL truyền thốngChatbot LLM genericConversational Analytics in BigQuery
Rào cảnPhải biết SQL + ML.*Không, nhưng hay hallucinateNatural language, grounded
GroundingSchema tayKhông cóSchema + metadata + verified queries + glossary
Minh bạchSQL fullBlack boxHiện cả reasoning lẫn SQL sinh ra
PredictiveTự viết ML SQLKhôngAI.FORECAST / AI.DETECT_ANOMALIES gọi từ prompt
UnstructuredPipeline riêngChỉ textẢnh trong object tables, PDF
Bảo mậtIAM BigQueryThường rò rỉIAM + log mọi query

Use cases thực tế

  • Sales & revenue: "Who are the top performers this quarter?" — glossary định nghĩa "top performers" = reps có revenue cao nhất, không phải số deal đóng.
  • Forecasting: "Predict the number of trips for the next month." — ví dụ từ docs, chạy trên bigquery-public-data.san_francisco_bikeshare.bikeshare_trips.
  • Anomaly detection: "Find outliers in trips per day for 2018 using 2017 as a baseline." Phát hiện fraud, lỗi kỹ thuật, thay đổi hành vi khách.
  • Recurring reports: data scientist nhúng AI.FORECAST vào verified query một lần, business user hỏi ngôn ngữ thường là ra report chuẩn.
  • Unstructured: "For each article in the 'sports' category, summarize the body column in 1-2 sentences." Tóm tắt ticket PDF, truy vấn ảnh trong object tables.

Limitations & pricing

  • Preview — theo Pre-GA Offerings Terms, "as is", support giới hạn
  • Global only — không chọn region được
  • Pricing: chỉ tính BigQuery compute cho query agent chạy. Không charge thêm cho việc tạo/dùng agent hay conversation trong giai đoạn Preview.
  • Anomaly detection: chỉ eval 1,024 điểm gần nhất; target schema phải khớp history schema; min 3 history points
  • Gemini vẫn có thể sai — Google khuyến cáo validate output trước khi ra quyết định
  • Feedback: bqca-feedback-external@google.com

What's next

Google nói đây mới là bước đầu. Roadmap (không có ngày GA cụ thể) gồm mở rộng danh sách BigQuery ML function, tích hợp sâu hơn với Dataplex Universal Catalog, và khả năng agent orchestration nhiều cấp. Với những ai đang xây data platform nội bộ, thời điểm hợp lý để bắt đầu là: chuẩn hóa metadata, viết sẵn vài verified query cho KPI quan trọng, xây glossary — agent sẽ chỉ thông minh bằng đúng context bạn đưa cho nó.

Nguồn: Google Cloud Blog, BigQuery docs, AI.DETECT_ANOMALIES reference.