Gemini Embedding 2 lên GA: một vector space cho text, ảnh, video, audio và PDF

TL;DR

Gemini Embedding 2 vừa lên GA trên Gemini API và Vertex AI, sau 6 tuần ở public preview (10/3/2026).
Là embedding model natively multimodal đầu tiên của Google: text, ảnh, audio, video và PDF cùng chia một không gian vector 3072 chiều.
Dẫn đầu MTEB English (68.32, biên +5.09), MTEB Multilingual 69.9, MTEB Code 84.0, và áp đảo các đối thủ trên video retrieval.
Giá: $0.20 / 1M tokens cho text, giảm 50% với Batch API. Ảnh, audio, video có bảng giá riêng.
Context window 8192 tokens (gấp 4× so với gemini-embedding-001), hỗ trợ Matryoshka Representation Learning xuống đến 128 chiều.

Gemini Embedding 2 hero banner

What's new

Gemini Embedding 2 khác hoàn toàn với gemini-embedding-001 (GA tháng 7/2025) ở một điểm then chốt: nó là natively multimodal. Thay vì chạy CLIP cho ảnh, Whisper + text-embedding cho audio, một mô hình khác cho video rồi cố gắng hợp nhất các không gian vector, bạn gọi một API duy nhất và nhận về một vector 3072 chiều — bất kể input là text, JPEG, MP4, WAV, hay PDF.

Một request có thể chứa tối đa 6 ảnh, video ≤120 giây, audio native (không cần transcription), và PDF ≤6 trang. Text lên đến 8192 tokens — gấp 4 lần bản trước. Output hỗ trợ Matryoshka Representation Learning, cho phép cắt ngắn vector xuống bất kỳ mức nào từ 128 đến 3072 chiều; Google khuyến nghị 768 là điểm cân bằng chi phí/chất lượng.

Why it matters

Với enterprise đang vật lộn để dựng multimodal RAG, câu chuyện trước đây là duy trì 3–4 pipeline embedding song song — một cho text, một cho ảnh, một cho audio, và một layer mapping để kéo các không gian vector khác nhau về gần nhau. Gemini Embedding 2 xoá bỏ toàn bộ tầng đó. Bạn index một lần, query một lần, kết quả trả về có thể là bất kỳ modality nào.

Điều này mở ra các truy vấn kiểu cross-modal mà trước đây khó làm: query bằng text → match frame video; query bằng ảnh sản phẩm → match đoạn review trong PDF; query bằng đoạn audio → match tài liệu text. Tất cả trong một vector DB duy nhất.

Technical facts

Gemini Embedding 2 benchmark comparison chart

Dữ liệu benchmark Google công bố cho thấy Gemini Embedding 2 dẫn đầu gần như mọi hạng mục:

Benchmark	Gemini Embedding 2	gemini-embedding-001	Amazon Nova 2	Voyage 3.5
MTEB Multilingual	69.9	68.4	63.8	58.5
MTEB Code	84.0	76.0	—	—
TextCaps (Text→Image)	89.6	—	76.0	79.4
Docci (Text→Image)	93.4	—	84.0	83.8
Vatex (Text→Video)	68.8	—	60.3	55.2
YouCook2 (Text→Video)	52.5	—	34.7	31.4

Pricing & availability

Giá là nơi câu chuyện phân nhánh theo modality:

Modality	Standard / 1M tokens	Batch API
Text	$0.20	$0.10
Images	$0.45	$0.225
Audio	$6.50	$3.25
Video	$12.00	$6.00

Nếu chỉ làm text-only, OpenAI text-embedding-3-large ($0.13/1M) vẫn rẻ hơn và đủ tốt cho nhiều workload. Nhưng nếu cần multimodal, không có mô hình nào tương đương trong một API call duy nhất — đó là lý do Google thu phí cao hơn cho text: bạn trả giá cho sự thống nhất của không gian vector.

Use cases

Multimodal RAG cho knowledge base doanh nghiệp: gộp docs, screenshot, diagram, video demo vào cùng một index.
Video asset discovery: studio và marketer tìm clip theo nội dung (“hoàng hôn trên biển, cặp đôi đi dạo”) thay vì keyword tag.
Legal & compliance search: query text → match scan PDF, biểu đồ, phụ lục.
E-commerce visual search: upload ảnh sản phẩm → retrieve item tương tự + mô tả + clip review.
Data stack consolidation: thay 3–4 embedding pipeline bằng một model call — giảm cost infra và loại bỏ vấn đề lệch không gian vector.

Limitations & gotchas

Video đắt: $12/1M tokens; 1 phút video có thể tốn hàng chục nghìn tokens — workload scale lớn cần cân nhắc Batch API.
Text-only thì không rẻ nhất: $0.20/1M so với $0.02/1M của text-embedding-3-small — chênh 10×. Chỉ đáng dùng khi thực sự cần multimodal.
Limits per request: 6 ảnh/request, video ≤120 giây, PDF ≤6 trang — dữ liệu dài cần chunk.
Migration từ 001: dimension mặc định giữ 3072 nhưng semantic space khác, phải re-embed toàn corpus.
Rollout theo region: Gemini API đã GA toàn cầu, một số region Vertex AI còn đang mở dần.

What's next

Google đánh tín hiệu sẽ mở rộng về fine-tuning, domain-specific variants (legal, medical, code), và tối ưu pricing cho per-modality — hy vọng giảm phần audio/video vốn đang là rào cản cho adoption. Integrations sẵn có với LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB, Vector Search nên team có thể bật thử mà không cần viết lại pipeline.

Nếu bạn đang xây multimodal RAG hoặc đang chạy 2+ embedding model trong production, Gemini Embedding 2 đáng POC ngay tuần này — chạy song song với stack hiện tại, so retrieval quality trên chính data của bạn, rồi quyết định.

Nguồn: blog.google, Google Developers Blog, Gemini API docs, TokenCost.

Gemini Embedding 2 lên GA: một vector space cho text, ảnh, video, audio và PDF

TL;DR

What's new

Why it matters

Technical facts

Pricing & availability

Use cases

Limitations & gotchas

What's next

Tiếp tục lướt

Gemma 4 26B A4B: con quái vật mã nguồn mở Google vừa thả ra cho máy tính cá nhân

Aletheia: AI của Google DeepMind giải 6/10 bài toán mới và đạt 91.9% IMO-ProofBench

DevOps vs MLOps vs LLMOps: 3 ops, 3 bài toán khác nhau — đừng lấy playbook DevOps áp vào app LLM

Vision Banana: Google DeepMind biến Nano Banana Pro thành mô hình thị giác đa năng đánh bại SAM 3 và Depth Anything

Exa Highlights: cắt 96% input token cho web agent, 500 token đủ thay 10K token nguyên trang