Tópico sobre Gemini Embedding 2, o primeiro modelo de embeddings…
INEMA
Aqui vai um comparativo direto e atualizado (2026):
💰 Custos de embeddings⌗
🔵 Gemini (Google)⌗
-
Gemini Embedding 2
-
💵 ~ $0.20 / 1 milhão de tokens (texto) ([TokenCost][1])
- 🧠 diferencial: multimodal nativo (texto, imagem, áudio, vídeo, PDF) ([Google Cloud Documentation][2])
👉 Observação:
- Existe free tier com limites generosos para teste
🟢 OpenAI⌗
-
text-embedding-3-small
-
💵 ~ $0.02 / 1M tokens (bem barato)
-
text-embedding-3-large
-
💵 ~ $0.13 / 1M tokens
👉 Resumo:
- OpenAI é ~10x mais barato no modelo small
- Large compete com Gemini em qualidade/preço
⚖️ Comparação rápida⌗
| Modelo | Preço / 1M tokens | Tipo |
|---|---|---|
| OpenAI small | $0.02 | texto |
| OpenAI large | $0.13 | texto |
| Gemini Embedding 2 | $0.20 | multimodal |
👉 Tradução prática:
- 💸 custo baixo → OpenAI small
- 🧠 melhor qualidade texto → OpenAI large ou Gemini
- 🧩 multimodal (único real) → Gemini
🌐 Tem no OpenRouter?⌗
❌ Situação atual (2026)⌗
- OpenAI embeddings → NÃO estão no OpenRouter
- Gemini embeddings → também NÃO estão disponíveis lá
👉 OpenRouter hoje foca em:
- modelos de chat/completion
- não em embeddings (na prática)
🧠 Conclusão direta⌗
-
Se seu caso é RAG simples com texto: → OpenAI
text-embedding-3-smallganha disparado em custo -
Se precisa de:
-
imagem + texto
-
busca multimodal → Gemini Embedding 2 é o único que resolve direto
-
Se quer usar via OpenRouter: → hoje você ainda precisa usar APIs separadas para embeddings
-
O que o Gemini Embeddings faz⌗
Ele pega qualquer conteúdo e transforma em vetores numéricos que representam significado.
Exemplo:
Entrada:
- texto
- imagem
- vídeo
- áudio
Saída:
[0.123, -0.883, 0.442, 0.991, ...]
Esse vetor representa o significado daquele conteúdo.
O que é o RAG de verdade⌗
RAG é um sistema completo, não apenas embeddings.
Fluxo real:
Dados
↓
Embeddings
↓
Banco vetorial
↓
Busca semântica
↓
LLM gera resposta
Então qual é o papel do Gemini Embeddings 2⌗
Ele faz uma etapa do processo:
dados → embeddings
Mas não faz sozinho:
- banco vetorial
- busca
- geração de resposta
- interface
- pipeline completo
O que mudou com esse modelo⌗
Antes:
Você precisava de pipelines separados:
texto → embedding modelo A
imagem → modelo B
vídeo → modelo C
Agora:
texto
imagem
vídeo
áudio
PDF
↓
Gemini Embeddings 2
↓
mesmo espaço vetorial
Isso simplifica muito o RAG.
O que o Claude Code fez no vídeo⌗
O Claude Code construiu o resto do sistema automaticamente:
Ele criou:
- pipeline de ingestão
- geração de embeddings
- banco Pinecone
- busca vetorial
- chat interface
Ou seja:
Claude Code = constrói o RAG
Gemini Embeddings = gera vetores
Em uma frase simples⌗
Gemini Embeddings não cria o RAG. Ele cria os vetores que permitem que o RAG funcione.
Na prática, fazer um RAG multimodal com Gemini Embeddings 2 significa criar um sistema que:
- pega arquivos (texto, imagens, vídeos etc)
- transforma tudo em embeddings
- salva em um banco vetorial
- quando o usuário pergunta algo, ele busca os dados relevantes
- envia para um modelo de IA gerar a resposta
Vou te mostrar o fluxo real simplificado, igual ao que foi feito no vídeo.
1️⃣ Criar as chaves de API⌗
Você precisa de três coisas:
Gemini API
https://aistudio.google.com/app/apikey
Pinecone (banco vetorial)
Modelo de chat (Claude / GPT / etc) Pode usar:
- OpenAI
- Anthropic
- OpenRouter
2️⃣ Criar a estrutura do projeto⌗
Exemplo simples:
```rag-project/
data/ image1.jpg video1.mp4 manual.pdf text.txt
app.py .env```
3️⃣ Gerar embeddings (Gemini)⌗
Exemplo Python:
```from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.embed_content( model="models/gemini-embedding-2", content="How to clean the vacuum filter" )
embedding = response.embedding```
Isso transforma o texto em vetor numérico.
4️⃣ Salvar no Pinecone⌗
```import pinecone
pinecone.init( api_key="PINECONE_KEY", environment="us-east1" )
index = pinecone.Index("rag-demo")
index.upsert([ ("doc1", embedding, {"text": "How to clean the filter"}) ])```
Agora o texto está no banco vetorial.
5️⃣ Ingerir arquivos automaticamente⌗
Para cada arquivo:
Texto⌗
embed(text)
Imagem⌗
Gerar descrição:
"A vacuum cleaner filter diagram"
Depois embed dessa descrição.
Vídeo⌗
Extrair frames ou descrição.
6️⃣ Fazer busca (query)⌗
Usuário pergunta:
How do I clean the vacuum filter?
Geramos embedding da pergunta.
query_embedding = embed(question)
Buscamos no Pinecone:
results = index.query(
vector=query_embedding,
top_k=5,
include_metadata=True
)
Isso retorna os documentos mais relevantes.
7️⃣ Enviar para o modelo de IA⌗
Agora juntamos o contexto.
context = resultados do banco vetorial
Prompt:
```Use this context to answer:
Question: How do I clean the vacuum filter?```
Enviar para Claude ou GPT.
8️⃣ Resultado final⌗
A IA responde usando:
- texto
- imagens
- vídeos
- documentos
exatamente como no vídeo.
Visualmente o fluxo é⌗
Arquivos
(texto imagem vídeo pdf)
↓
Gemini Embeddings
↓
Vetores
↓
Pinecone
(vector database)
↓
Busca semântica
↓
LLM (Claude / GPT)
↓
Resposta final
Por que isso ficou mais fácil agora⌗
Antes você precisava:
- OCR
- pipeline de imagens
- pipeline de vídeo
- pipeline de texto
- embeddings diferentes
Agora:
um embedding multimodal resolve tudo.
importante incluir:
- descrições claras
- contexto
- metadata
Exemplo:
roof_type
cost
team_size
damage_type
Quanto melhor o metadata, melhor o retrieval.
14. Mudança de habilidade no desenvolvimento⌗
Segundo o autor:
Antes o valor estava em:
- configurar pipelines
- manipular APIs
- construir fluxos complexos
Agora o valor está em:
- entender o processo
- descrever sistemas claramente
- fornecer contexto correto.
Conclusão do vídeo⌗
A combinação de:
- Gemini Embeddings 2
- Claude Code
- Vector DB
permite criar sistemas RAG multimodais completos em minutos, algo que antes podia levar horas ou dias.
Resumo : Google's New Model + Claude Code Just Changed RAG Forever⌗
1. Novo modelo: Gemini Embeddings 2⌗
- Primeiro modelo de embeddings multimodal nativo do Google.
-
Consegue representar no mesmo espaço vetorial:
-
texto
- imagens
- vídeos
- áudio
- documentos
- Permite buscar relações semânticas entre diferentes tipos de mídia.
Resultado: bancos vetoriais realmente multimodais.
2. O que isso muda no RAG⌗
RAG significa Retrieval Augmented Generation.
Fluxo tradicional:
- Dados são coletados (docs, imagens etc).
- Conteúdo é dividido em chunks.
- Chunks passam por um modelo de embedding.
- Viram vetores numéricos.
- São armazenados em um banco vetorial.
- Na consulta, o sistema recupera os vetores mais próximos para gerar resposta.
Problema tradicional:
- ingestão complexa
- pipelines diferentes para texto, imagem, vídeo etc.
Com Gemini Embeddings 2:
- tudo pode ir para o mesmo espaço vetorial.
3. Demo 1 — Chat com manual PDF⌗
Exemplo:
Input:
- PDF de 68 páginas de um aspirador com texto e diagramas.
O sistema:
- extrai texto
- extrai imagens
- gera embeddings
- salva no Pinecone
Depois é possível perguntar:
Exemplo: "How do I clean the filter?"
Resposta inclui:
- instruções em texto
- diagramas da página correta
- páginas de origem
- score de similaridade
Benefício: imagens ajudam muito em instruções físicas.
4. Demo 2 — Busca visual em telhados⌗
Projeto para empresa de telhados.
Banco contém:
- 13 fotos de telhados
- metadata (preço, tempo, equipe etc)
Usuário envia foto de um telhado.
Sistema:
- gera embedding da imagem
- busca telhados similares
- retorna:
- projetos semelhantes
- faixa de preço
- equipe usada
- análise do problema
Uso real:
- orçamento automático
- histórico de obras
- suporte técnico.
5. Como embeddings organizam o conhecimento⌗
Após gerar embeddings:
Tudo fica em um espaço multidimensional de significado.
Exemplo mostrado:
- vídeo de cachorro tocando guitarra
- foto de comida
- texto sobre tecnologia
O modelo posiciona cada item por significado semântico.
Assim é possível:
- pesquisar vídeo usando texto
- pesquisar imagem usando outra imagem
- pesquisar áudio usando texto.
6. Construção do sistema com Claude Code⌗
Ferramentas usadas:
- Claude Code
- Gemini Embeddings 2
- Pinecone (vector DB)
- OpenRouter (LLM gateway)
- VS Code
O processo foi:
- Criar projeto no VS Code
- Instalar extensão Claude Code
- Pedir em linguagem natural:
"Quero usar Gemini embeddings com Pinecone para armazenar imagens, vídeos e texto."
Claude Code:
- cria estrutura do projeto
- cria arquivos
- cria dependências
- cria pipeline de ingestão
7. APIs necessárias⌗
Três chaves:
Pinecone⌗
Para banco vetorial.
Gemini API⌗
Para gerar embeddings.
OpenRouter⌗
Para acessar modelos de chat (Claude).
8. Ingestão de dados⌗
Basta colocar arquivos em uma pasta:
data/
Pode incluir:
- imagens
- vídeos
- textos
- documentos
Claude Code:
- processa tudo
- gera embeddings
- envia ao Pinecone.
9. Criação automática do app de chat⌗
Claude Code também criou:
- backend
- frontend
- web chat local
Interface: Multimodal RAG Chat
O chat consulta o banco vetorial e responde.
10. Como o sistema trata imagens e vídeos⌗
Durante ingestão:
Ele cria:
- embedding
- descrição textual do conteúdo
Exemplo:
video: dog playing guitar
description: cartoon golden retriever playing guitar in front of fireplace
Essas descrições ajudam na busca semântica.
11. Atualização para mostrar mídia⌗
Inicialmente o sistema retornava apenas:
- nomes de arquivos
Depois foi atualizado para:
- exibir imagens
- reproduzir vídeos diretamente no chat.
12. Limitações atuais⌗
Algumas limitações mencionadas:
Vídeo:
- até 120 segundos
- formatos MP4 e MOV
Imagens:
- até 6 por request
- formatos PNG e JPEG
13. Importância do metadata⌗
Para RAG funcionar bem é
O Google lançou o Gemini Embedding 2 Preview, seu primeiro modelo de embeddings multimodal, capaz de indexar texto, imagens, vídeo, áudio e PDFs em um espaço vetorial unificado. Na prática, isso simplifica bastante a construção de sistemas de busca visual e RAG multimodal. Em vez de montar pipelines separados para OCR, descrição de imagens e tratamento de vídeo, agora boa parte dessa semântica pode ser tratada nativamente pelo modelo. Com ferramentas como Claude Code e um banco vetorial como Pinecone, dá para automatizar grande parte da ingestão e da indexação — embora ainda seja importante cuidar de metadados, atualização e estratégia de retrieval.
Ele explica muito bem
esta dublado
Gemini Embedding 2.0 (RAG)
1