cerebro-vip INEMA.CLUB
inícioINEMA.GOOGLE

Tópico sobre Gemini Embedding 2, o primeiro modelo de embeddings…

INEMA.GOOGLE · 2026-03-16 · ~8 min · ver no Telegram ↗

INEMA

Aqui vai um comparativo direto e atualizado (2026):


💰 Custos de embeddings

🔵 Gemini (Google)

  • Gemini Embedding 2

  • 💵 ~ $0.20 / 1 milhão de tokens (texto) ([TokenCost][1])

  • 🧠 diferencial: multimodal nativo (texto, imagem, áudio, vídeo, PDF) ([Google Cloud Documentation][2])

👉 Observação:

  • Existe free tier com limites generosos para teste

🟢 OpenAI

  • text-embedding-3-small

  • 💵 ~ $0.02 / 1M tokens (bem barato)

  • text-embedding-3-large

  • 💵 ~ $0.13 / 1M tokens

👉 Resumo:

  • OpenAI é ~10x mais barato no modelo small
  • Large compete com Gemini em qualidade/preço

⚖️ Comparação rápida

Modelo Preço / 1M tokens Tipo
OpenAI small $0.02 texto
OpenAI large $0.13 texto
Gemini Embedding 2 $0.20 multimodal

👉 Tradução prática:

  • 💸 custo baixo → OpenAI small
  • 🧠 melhor qualidade texto → OpenAI large ou Gemini
  • 🧩 multimodal (único real) → Gemini

🌐 Tem no OpenRouter?

❌ Situação atual (2026)

  • OpenAI embeddings → NÃO estão no OpenRouter
  • Gemini embeddings → também NÃO estão disponíveis lá

👉 OpenRouter hoje foca em:

  • modelos de chat/completion
  • não em embeddings (na prática)

🧠 Conclusão direta

  • Se seu caso é RAG simples com texto: → OpenAI text-embedding-3-small ganha disparado em custo

  • Se precisa de:

  • imagem + texto

  • busca multimodal → Gemini Embedding 2 é o único que resolve direto

  • Se quer usar via OpenRouter: → hoje você ainda precisa usar APIs separadas para embeddings

-

O que o Gemini Embeddings faz

Ele pega qualquer conteúdo e transforma em vetores numéricos que representam significado.

Exemplo:

Entrada:

  • texto
  • imagem
  • vídeo
  • áudio
  • PDF

Saída:

[0.123, -0.883, 0.442, 0.991, ...]

Esse vetor representa o significado daquele conteúdo.


O que é o RAG de verdade

RAG é um sistema completo, não apenas embeddings.

Fluxo real:

Dados ↓ Embeddings ↓ Banco vetorial ↓ Busca semântica ↓ LLM gera resposta


Então qual é o papel do Gemini Embeddings 2

Ele faz uma etapa do processo:

dados → embeddings

Mas não faz sozinho:

  • banco vetorial
  • busca
  • geração de resposta
  • interface
  • pipeline completo

O que mudou com esse modelo

Antes:

Você precisava de pipelines separados:

texto → embedding modelo A imagem → modelo B vídeo → modelo C

Agora:

texto imagem vídeo áudio PDF ↓ Gemini Embeddings 2 ↓ mesmo espaço vetorial

Isso simplifica muito o RAG.


O que o Claude Code fez no vídeo

O Claude Code construiu o resto do sistema automaticamente:

Ele criou:

  • pipeline de ingestão
  • geração de embeddings
  • banco Pinecone
  • busca vetorial
  • chat interface

Ou seja:

Claude Code = constrói o RAG Gemini Embeddings = gera vetores


Em uma frase simples

Gemini Embeddings não cria o RAG. Ele cria os vetores que permitem que o RAG funcione.

Na prática, fazer um RAG multimodal com Gemini Embeddings 2 significa criar um sistema que:

  1. pega arquivos (texto, imagens, vídeos etc)
  2. transforma tudo em embeddings
  3. salva em um banco vetorial
  4. quando o usuário pergunta algo, ele busca os dados relevantes
  5. envia para um modelo de IA gerar a resposta

Vou te mostrar o fluxo real simplificado, igual ao que foi feito no vídeo.


1️⃣ Criar as chaves de API

Você precisa de três coisas:

Gemini API

https://aistudio.google.com/app/apikey

Pinecone (banco vetorial)

https://pinecone.io

Modelo de chat (Claude / GPT / etc) Pode usar:

  • OpenAI
  • Anthropic
  • OpenRouter

2️⃣ Criar a estrutura do projeto

Exemplo simples:

```rag-project/

data/ image1.jpg video1.mp4 manual.pdf text.txt

app.py .env```


3️⃣ Gerar embeddings (Gemini)

Exemplo Python:

```from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.embed_content( model="models/gemini-embedding-2", content="How to clean the vacuum filter" )

embedding = response.embedding```

Isso transforma o texto em vetor numérico.


4️⃣ Salvar no Pinecone

```import pinecone

pinecone.init( api_key="PINECONE_KEY", environment="us-east1" )

index = pinecone.Index("rag-demo")

index.upsert([ ("doc1", embedding, {"text": "How to clean the filter"}) ])```

Agora o texto está no banco vetorial.


5️⃣ Ingerir arquivos automaticamente

Para cada arquivo:

Texto

embed(text)

Imagem

Gerar descrição:

"A vacuum cleaner filter diagram"

Depois embed dessa descrição.

Vídeo

Extrair frames ou descrição.


6️⃣ Fazer busca (query)

Usuário pergunta:

How do I clean the vacuum filter?

Geramos embedding da pergunta.

query_embedding = embed(question)

Buscamos no Pinecone:

results = index.query( vector=query_embedding, top_k=5, include_metadata=True )

Isso retorna os documentos mais relevantes.


7️⃣ Enviar para o modelo de IA

Agora juntamos o contexto.

context = resultados do banco vetorial

Prompt:

```Use this context to answer:

Question: How do I clean the vacuum filter?```

Enviar para Claude ou GPT.


8️⃣ Resultado final

A IA responde usando:

  • texto
  • imagens
  • vídeos
  • documentos

exatamente como no vídeo.


Visualmente o fluxo é

Arquivos (texto imagem vídeo pdf) ↓ Gemini Embeddings ↓ Vetores ↓ Pinecone (vector database) ↓ Busca semântica ↓ LLM (Claude / GPT) ↓ Resposta final


Por que isso ficou mais fácil agora

Antes você precisava:

  • OCR
  • pipeline de imagens
  • pipeline de vídeo
  • pipeline de texto
  • embeddings diferentes

Agora:

um embedding multimodal resolve tudo.

importante incluir:

  • descrições claras
  • contexto
  • metadata

Exemplo:

roof_type cost team_size damage_type

Quanto melhor o metadata, melhor o retrieval.


14. Mudança de habilidade no desenvolvimento

Segundo o autor:

Antes o valor estava em:

  • configurar pipelines
  • manipular APIs
  • construir fluxos complexos

Agora o valor está em:

  • entender o processo
  • descrever sistemas claramente
  • fornecer contexto correto.

Conclusão do vídeo

A combinação de:

  • Gemini Embeddings 2
  • Claude Code
  • Vector DB

permite criar sistemas RAG multimodais completos em minutos, algo que antes podia levar horas ou dias.

Resumo : Google's New Model + Claude Code Just Changed RAG Forever

1. Novo modelo: Gemini Embeddings 2

  • Primeiro modelo de embeddings multimodal nativo do Google.
  • Consegue representar no mesmo espaço vetorial:

  • texto

  • imagens
  • vídeos
  • áudio
  • documentos
  • Permite buscar relações semânticas entre diferentes tipos de mídia.

Resultado: bancos vetoriais realmente multimodais.


2. O que isso muda no RAG

RAG significa Retrieval Augmented Generation.

Fluxo tradicional:

  1. Dados são coletados (docs, imagens etc).
  2. Conteúdo é dividido em chunks.
  3. Chunks passam por um modelo de embedding.
  4. Viram vetores numéricos.
  5. São armazenados em um banco vetorial.
  6. Na consulta, o sistema recupera os vetores mais próximos para gerar resposta.

Problema tradicional:

  • ingestão complexa
  • pipelines diferentes para texto, imagem, vídeo etc.

Com Gemini Embeddings 2:

  • tudo pode ir para o mesmo espaço vetorial.

3. Demo 1 — Chat com manual PDF

Exemplo:

Input:

  • PDF de 68 páginas de um aspirador com texto e diagramas.

O sistema:

  • extrai texto
  • extrai imagens
  • gera embeddings
  • salva no Pinecone

Depois é possível perguntar:

Exemplo: "How do I clean the filter?"

Resposta inclui:

  • instruções em texto
  • diagramas da página correta
  • páginas de origem
  • score de similaridade

Benefício: imagens ajudam muito em instruções físicas.


4. Demo 2 — Busca visual em telhados

Projeto para empresa de telhados.

Banco contém:

  • 13 fotos de telhados
  • metadata (preço, tempo, equipe etc)

Usuário envia foto de um telhado.

Sistema:

  1. gera embedding da imagem
  2. busca telhados similares
  3. retorna:
  • projetos semelhantes
  • faixa de preço
  • equipe usada
  • análise do problema

Uso real:

  • orçamento automático
  • histórico de obras
  • suporte técnico.

5. Como embeddings organizam o conhecimento

Após gerar embeddings:

Tudo fica em um espaço multidimensional de significado.

Exemplo mostrado:

  • vídeo de cachorro tocando guitarra
  • foto de comida
  • texto sobre tecnologia

O modelo posiciona cada item por significado semântico.

Assim é possível:

  • pesquisar vídeo usando texto
  • pesquisar imagem usando outra imagem
  • pesquisar áudio usando texto.

6. Construção do sistema com Claude Code

Ferramentas usadas:

  • Claude Code
  • Gemini Embeddings 2
  • Pinecone (vector DB)
  • OpenRouter (LLM gateway)
  • VS Code

O processo foi:

  1. Criar projeto no VS Code
  2. Instalar extensão Claude Code
  3. Pedir em linguagem natural:

"Quero usar Gemini embeddings com Pinecone para armazenar imagens, vídeos e texto."

Claude Code:

  • cria estrutura do projeto
  • cria arquivos
  • cria dependências
  • cria pipeline de ingestão

7. APIs necessárias

Três chaves:

Pinecone

Para banco vetorial.

Gemini API

Para gerar embeddings.

OpenRouter

Para acessar modelos de chat (Claude).


8. Ingestão de dados

Basta colocar arquivos em uma pasta:

data/

Pode incluir:

  • imagens
  • vídeos
  • textos
  • documentos

Claude Code:

  • processa tudo
  • gera embeddings
  • envia ao Pinecone.

9. Criação automática do app de chat

Claude Code também criou:

  • backend
  • frontend
  • web chat local

Interface: Multimodal RAG Chat

O chat consulta o banco vetorial e responde.


10. Como o sistema trata imagens e vídeos

Durante ingestão:

Ele cria:

  • embedding
  • descrição textual do conteúdo

Exemplo:

video: dog playing guitar description: cartoon golden retriever playing guitar in front of fireplace

Essas descrições ajudam na busca semântica.


11. Atualização para mostrar mídia

Inicialmente o sistema retornava apenas:

  • nomes de arquivos

Depois foi atualizado para:

  • exibir imagens
  • reproduzir vídeos diretamente no chat.

12. Limitações atuais

Algumas limitações mencionadas:

Vídeo:

  • até 120 segundos
  • formatos MP4 e MOV

Imagens:

  • até 6 por request
  • formatos PNG e JPEG

13. Importância do metadata

Para RAG funcionar bem é

O Google lançou o Gemini Embedding 2 Preview, seu primeiro modelo de embeddings multimodal, capaz de indexar texto, imagens, vídeo, áudio e PDFs em um espaço vetorial unificado. Na prática, isso simplifica bastante a construção de sistemas de busca visual e RAG multimodal. Em vez de montar pipelines separados para OCR, descrição de imagens e tratamento de vídeo, agora boa parte dessa semântica pode ser tratada nativamente pelo modelo. Com ferramentas como Claude Code e um banco vetorial como Pinecone, dá para automatizar grande parte da ingestão e da indexação — embora ainda seja importante cuidar de metadados, atualização e estratégia de retrieval.

Ele explica muito bem

esta dublado

youtube.com/watch ↗

Gemini Embedding 2.0 (RAG)

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗