Google launches new multimodal Gemini Embedding 2 model (2 minute read)

Google's Gemini Embedding 2, available via the Gemini API and Vertex AI, unifies text, images, videos, audio, and documents in over 100 languages. The model processes up to 8,192 text tokens, six images, 120-second videos, and six-page PDFs, incorporating Matryoshka Representation Learning for customizable output dimensions. Early access users already utilize it for Retrieval-Augmented Generation and semantic search, with initial feedback showing superior performance against competitors.