Gemini Embedding 2: Google dùng búp bê Matryoshka để cắt 75% chi phí vector

TL;DR

Google vừa đưa Gemini Embedding 2 vào General Availability - model embedding multimodal đầu tiên của Google, xử lý text, ảnh, video, audio và PDF trong cùng một không gian ngữ nghĩa. Điểm mấu chốt: kỹ thuật Matryoshka Representation Learning (MRL) cho phép cắt vector từ 3,072 xuống 768 chiều, tiết kiệm 4x lưu trữ với chưa đến 10% suy giảm chất lượng - không cần re-index toàn bộ. Đây là thay đổi thực chất cho RAG và semantic search trong môi trường production.

Búp bê Matryoshka trong AI là gì?

Búp bê Matryoshka của Nga có đặc điểm: mỗi búp bê lớn chứa bên trong một phiên bản nhỏ hơn nhưng vẫn hoàn chỉnh. MRL mang chính xác logic này vào vector embedding.

Với model embedding thông thường, thông tin ngữ nghĩa được phân bố đều trên toàn bộ chiều vector. Nếu bạn cắt một vector 3,072 chiều xuống 768, thông tin bị mất ngẫu nhiên - chất lượng sụp đổ. MRL giải quyết điều này bằng cách ép model dồn thông tin quan trọng nhất vào các chiều đầu tiên. Quá trình training áp dụng joint loss function ở nhiều scale đồng thời: model bị phạt nếu chất lượng kém ở 768, 1,024, 1,536, 2,048 hay 3,072 chiều. Kết quả: bạn có thể cắt tại bất kỳ điểm nào và vẫn có một vector có ý nghĩa, không phải nhiễu.

Gemini Embedding 2 tự động chuẩn hóa (normalize) các vector bị cắt - không như phiên bản cũ yêu cầu bạn làm thủ công.

Số liệu kỹ thuật cần biết

Chỉ số	Giá trị
Chiều vector mặc định	3,072 dims
Chiều tối thiểu hỗ trợ	768 dims
Giảm storage (3072 -> 768)	4x (75%)
Suy giảm chất lượng ở 768	< 10% recall
Suy giảm ở 2048	< 1% recall@10 (MTEB)
Context window text	8,192 tokens
Hình ảnh / request	tối đa 6 ảnh (PNG, JPEG)
Audio	tối đa 180 giây (MP3, WAV)
Video	tối đa 120 giây, 32 frames
PDF	tối đa 6 trang
Batch API	50% giá so với real-time

Ba mức chiều được Google khuyến nghị cho production: 3,072 (độ chính xác tối đa cho legal/medical/kỹ thuật), 1,536 (cân bằng chất luong - chi phi), 768 (tốc độ cao, footprint thấp, phù hợp candidate retrieval stage đầu).

Trong thực tế: 3 trường hợp đã đo được

Nuuly (công ty cho thuê quần áo của URBN) dùng Gemini Embedding 2 để xây dựng visual search tool: nhân viên kho chụp ảnh hàng không gắn tag, hệ thống tự match với catalog. Kết quả: Match@20 tăng từ 60% lên 87%, tỷ lệ nhận dạng sản phẩm thành công tổng thể từ 74% lên hơn 90%.

Supermemory - "vector database for memory" cho phép tìm kiếm khái niệm qua các ghi chú rời rạc - ghi nhận tăng 40% Recall@1 trên toàn bộ pipeline indexing, search và Q&A sau khi tích hợp model.

Harvey - nền tảng nghiên cứu pháp lý cho công ty luật - thấy tăng 3% Recall@20 trên benchmark pháp lý chuyên biệt, dẫn đến trích dẫn chính xác hơn cho luật sư.

Pattern MRL hiệu quả nhất trong production là two-stage retrieval: dùng 768-dim để shortlist nhanh hàng triệu document, sau đó rerank top results bằng vector 3,072-dim đầy đủ - tốc độ của candidate retrieval, độ chính xác của full-precision reranking.

So với v1 và các đối thủ

Gemini Embedding 001 là model text-only với context 2,048 tokens. Embedding 2 nâng context lên 4x (8,192 tokens) và thêm 4 loại media. Lưu ý quan trọng: hai embedding space không tương thích - nếu upgrade, bạn phải re-embed toàn bộ dữ liệu hiện tại. Ngoài ra, API thay đổi từ tham số task_type sang prompt prefix (ví dụ: "task: search result | query: {content}").

OpenAI text-embedding-3 và Cohere cũng hỗ trợ MRL, nhưng là text-only. Khả năng embed audio và video natively là điểm khác biệt duy nhất và lớn nhất của Gemini Embedding 2. Để tham chiếu về kích thước: 1,536-dim của Gemini tương đương với OpenAI ada-002.

Ai nên dùng ngay?

Xây dựng RAG pipeline quy mô lớn - MRL giúp cắt chi phí vector DB mà không sacrifice độ chính xác cuối.
E-commerce và retail - visual search đa modal (ảnh + text query) mà không cần pipeline CLIP/BERT riêng biệt.
Ứng dụng cần xử lý audio/video - embed podcast, video lecture, meeting recording trực tiếp, không cần transcription trung gian.
Enterprise với corpus chuyên biệt (legal, medical, technical) - dùng 3,072-dim để giữ toàn bộ precision.
Prototype nhanh - bắt đầu với 768-dim để tiết kiệm chi phí, mở rộng lên khi cần.

Bắt đầu như thế nào

Model available qua Gemini API, Vertex AI và Gemini Enterprise Agent Platform - GA từ cuối tháng 4/2026. Batch API giảm 50% chi phí cho workload không nhạy cảm về latency. Tích hợp sẵn với LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB và Google Vector Search.

Tham số quan trọng duy nhất cần nhớ: output_dimensionality - đặt 768, 1536 hay 3072 tùy budget và yêu cầu độ chính xác. Model tự normalize, không cần code thêm.

Nguồn: blog.google, Google Developers Blog, Gemini API Docs.