TL;DR

Google đang mở rộng hạ tầng AI ở tốc độ không có tiền lệ. Các mô hình first-party của Google hiện xử lý hơn 16 tỷ token/phút qua direct API — tăng từ 10 tỷ chỉ một quý trước, tương đương +60% QoQ. Cloud Next 2026 đi kèm loạt sản phẩm: TPU thế hệ 8 (3× sức mạnh Ironwood), Gemini Enterprise Agent Platform, và quỹ $750M cho đối tác agentic AI.

What's new

Trong bài keynote mở màn Google Cloud Next 2026, Sundar Pichai nhấn mạnh một con số khiến cả ngành phải nhìn lại: "Our first-party models now process more than 16 billion tokens per minute via direct API use by our customers, up from 10 billion last quarter."

Đây không phải traffic nội bộ — đây là external API traffic trả phí, phản ánh mức độ adoption thực của Gemini và các mô hình Google trong workload production của doanh nghiệp.

Song song, Google công bố:

  • Gemini Enterprise Agent Platform — full-stack platform để build, scale, govern hàng nghìn agent trong tổ chức
  • TPU thế hệ 8 — 8t (training) + 8i (inference), tăng mạnh thông số so với Ironwood
  • AI-APP (AI Application Protection) — partnership với Wiz để bảo vệ workload AI
  • $750M fund cho đối tác xây dựng giải pháp agentic AI

Why it matters

Tăng trưởng 10B → 16B tokens/phút trong một quý nghĩa là ~6 tỷ token/phút được thêm vào chỉ trong 90 ngày. Để so sánh: 16B token/phút tương đương hơn 23 nghìn tỷ token mỗi ngày — đủ để xử lý toàn bộ Wikipedia tiếng Anh hàng chục lần mỗi phút.

Con số này là leading indicator cho mấy thứ lớn hơn:

  • Enterprise đang chuyển workload AI lên production thật, không còn PoC
  • Gemini (đặc biệt bản 3.x) đã đủ chất lượng để thay thế các model cũ trong pipeline thương mại
  • Cạnh tranh với OpenAI/Anthropic đang chuyển từ "ai có model tốt hơn" sang "ai scale infra nhanh hơn"

Technical facts

MetricQ4 2025Q1 2026Thay đổi
Tokens/phút (direct API)10B16B++60%
Gemini Enterprise paid MAUbaseline+40% QoQ+40%
AI-generated code tại Google50% (fall 2025)75%+25 điểm
ML compute cho Cloud business>50% tổng

TPU thế hệ 8:

  • TPU 8t (training): scale tới 9,600 TPU trong một cluster, 3× processing power của Ironwood (TPU 7), tới 2× performance/watt
  • TPU 8i (inference): 1,152 TPU/pod, 3× on-chip SRAM so với đời trước — tối ưu cho agentic workload low-latency

Comparison

Đặt vào bối cảnh hạ tầng AI toàn ngành:

  • Gartner dự báo IT spend toàn cầu đạt $6.31 nghìn tỷ năm 2026, AI infra tăng 13.5%
  • Google dành hơn nửa tổng ML compute investment 2026 cho Cloud — dấu hiệu rõ ràng rằng B2B AI đang thành trọng tâm doanh thu, không chỉ là "Search wrapper"
  • Backlog hợp đồng Cloud: $240 tỷ, 750 triệu người dùng Gemini

Use cases

  • Retail: Macy's triển khai AI concierge cho shopping online dựa trên Gemini
  • Security: SecOps agents tự triage hàng chục nghìn threat report/tháng, giảm thời gian mitigation hơn 90%
  • DevOps: Một code migration phức tạp hoàn tất nhanh gấp so với approach chỉ có engineer năm trước
  • Marketing: Chrome/Gemini campaign — turnaround nhanh 70%, +20% conversion với creative AI
  • Partnership: Thinking Machines Lab dùng A4X Max VM với Nvidia GB300 GPU trên Google Cloud

Limitations & pricing

Google chưa công bố pricing chi tiết cho TPU thế hệ 8 hay AI-APP — các sản phẩm này đang chạy preview/partner program. Quỹ $750M là tài trợ hệ sinh thái đối tác (AI assessment, PoC, prototyping, security eval) không phải credit trực tiếp cho end-user. Ngoài ra, con số 16B tokens/phút chỉ tính direct API — workload nội bộ của Google (Search, Workspace, YouTube) ước tính gấp nhiều lần.

What's next

Cuộc đua hạ tầng AI vừa bước sang giai đoạn mới: không còn là "ai làm được model biết suy luận" mà là "ai phục vụ được 100B+ token/phút với độ trễ milli-giây và giá đủ rẻ". Với pace hiện tại (+60% QoQ), Google có thể chạm mốc 25–30B tokens/phút cuối 2026 — giả định TPU 8 lên production đúng kế hoạch.

Với team tech lead Việt Nam: đây là tín hiệu nên tính nghiêm túc Gemini API (và Vertex) cho production workload, đặc biệt nếu bạn đang chạy agentic app có latency budget chặt — TPU 8i được thiết kế đúng cho use case này. Ba câu hỏi đáng cân nhắc: (1) workload hiện tại của bạn có thật sự cần GPT-4 class, hay Gemini 2.5 Flash đã đủ với chi phí rẻ hơn 5–10×? (2) nếu đi Vertex, bạn có khai thác được agent orchestration + evaluation native của Google, hay chỉ dùng như một endpoint inference? (3) nếu vendor lock-in là lo ngại, gateway layer (AI SDK, LiteLLM) có đủ linh hoạt để switch nhanh sang Claude/OpenAI khi cần?

Góc nhìn thị trường: khi cả ba nhà lớn (Google, OpenAI, Anthropic) đều đẩy số tokens/phút lên mức hàng chục tỷ, giá inference sẽ tiếp tục giảm. 12 tháng tới nhiều khả năng sẽ có thêm một đợt "price war" cho model mid-tier — điều kiện tốt để startup SEA build feature AI-native mà không lo cost.

Nguồn: blog.google, PYMNTS, InfotechLead.