Tópico sobre Gemini Embedding 2, o primeiro modelo de embeddings…

INEMA

Aqui vai um comparativo direto e atualizado (2026):

💰 Custos de embeddings⌗

🔵 Gemini (Google)⌗

Gemini Embedding 2
💵 ~ $0.20 / 1 milhão de tokens (texto) ([TokenCost][1])
🧠 diferencial: multimodal nativo (texto, imagem, áudio, vídeo, PDF) ([Google Cloud Documentation][2])

👉 Observação:

Existe free tier com limites generosos para teste

🟢 OpenAI⌗

text-embedding-3-small
💵 ~ $0.02 / 1M tokens (bem barato)
text-embedding-3-large
💵 ~ $0.13 / 1M tokens

👉 Resumo:

OpenAI é ~10x mais barato no modelo small
Large compete com Gemini em qualidade/preço

⚖️ Comparação rápida⌗

Modelo	Preço / 1M tokens	Tipo
OpenAI small	$0.02	texto
OpenAI large	$0.13	texto
Gemini Embedding 2	$0.20	multimodal

👉 Tradução prática:

💸 custo baixo → OpenAI small
🧠 melhor qualidade texto → OpenAI large ou Gemini
🧩 multimodal (único real) → Gemini

🌐 Tem no OpenRouter?⌗

❌ Situação atual (2026)⌗

OpenAI embeddings → NÃO estão no OpenRouter
Gemini embeddings → também NÃO estão disponíveis lá

👉 OpenRouter hoje foca em:

modelos de chat/completion
não em embeddings (na prática)

🧠 Conclusão direta⌗

Se seu caso é RAG simples com texto: → OpenAI text-embedding-3-small ganha disparado em custo
Se precisa de:
imagem + texto
busca multimodal → Gemini Embedding 2 é o único que resolve direto
Se quer usar via OpenRouter: → hoje você ainda precisa usar APIs separadas para embeddings

O que o Gemini Embeddings faz⌗

Ele pega qualquer conteúdo e transforma em vetores numéricos que representam significado.

Exemplo:

Entrada:

texto
imagem
vídeo
áudio
PDF

Saída:

[0.123, -0.883, 0.442, 0.991, ...]

Esse vetor representa o significado daquele conteúdo.

O que é o RAG de verdade⌗

RAG é um sistema completo, não apenas embeddings.

Fluxo real:

Dados ↓ Embeddings ↓ Banco vetorial ↓ Busca semântica ↓ LLM gera resposta

Então qual é o papel do Gemini Embeddings 2⌗

Ele faz uma etapa do processo:

dados → embeddings

Mas não faz sozinho:

banco vetorial
busca
geração de resposta
interface
pipeline completo

O que mudou com esse modelo⌗

Antes:

Você precisava de pipelines separados:

texto → embedding modelo A imagem → modelo B vídeo → modelo C

Agora:

texto imagem vídeo áudio PDF ↓ Gemini Embeddings 2 ↓ mesmo espaço vetorial

Isso simplifica muito o RAG.

O que o Claude Code fez no vídeo⌗

O Claude Code construiu o resto do sistema automaticamente:

Ele criou:

pipeline de ingestão
geração de embeddings
banco Pinecone
busca vetorial
chat interface

Ou seja:

Claude Code = constrói o RAG Gemini Embeddings = gera vetores

Em uma frase simples⌗

Gemini Embeddings não cria o RAG. Ele cria os vetores que permitem que o RAG funcione.

Na prática, fazer um RAG multimodal com Gemini Embeddings 2 significa criar um sistema que:

pega arquivos (texto, imagens, vídeos etc)
transforma tudo em embeddings
salva em um banco vetorial
quando o usuário pergunta algo, ele busca os dados relevantes
envia para um modelo de IA gerar a resposta

Vou te mostrar o fluxo real simplificado, igual ao que foi feito no vídeo.

1️⃣ Criar as chaves de API⌗

Você precisa de três coisas:

Gemini API

https://aistudio.google.com/app/apikey

Pinecone (banco vetorial)

https://pinecone.io

Modelo de chat (Claude / GPT / etc) Pode usar:

OpenAI
Anthropic
OpenRouter

2️⃣ Criar a estrutura do projeto⌗

Exemplo simples:

```rag-project/

data/ image1.jpg video1.mp4 manual.pdf text.txt

app.py .env```

3️⃣ Gerar embeddings (Gemini)⌗

Exemplo Python:

```from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.embed_content( model="models/gemini-embedding-2", content="How to clean the vacuum filter" )

embedding = response.embedding```

Isso transforma o texto em vetor numérico.

4️⃣ Salvar no Pinecone⌗

```import pinecone

pinecone.init( api_key="PINECONE_KEY", environment="us-east1" )

index = pinecone.Index("rag-demo")

index.upsert([ ("doc1", embedding, {"text": "How to clean the filter"}) ])```

Agora o texto está no banco vetorial.

5️⃣ Ingerir arquivos automaticamente⌗

Para cada arquivo:

Texto⌗

embed(text)

Imagem⌗

Gerar descrição:

"A vacuum cleaner filter diagram"

Depois embed dessa descrição.

Vídeo⌗

Extrair frames ou descrição.

6️⃣ Fazer busca (query)⌗

Usuário pergunta:

How do I clean the vacuum filter?

Geramos embedding da pergunta.

query_embedding = embed(question)

Buscamos no Pinecone:

results = index.query( vector=query_embedding, top_k=5, include_metadata=True )

Isso retorna os documentos mais relevantes.

7️⃣ Enviar para o modelo de IA⌗

Agora juntamos o contexto.

context = resultados do banco vetorial

Prompt:

```Use this context to answer:

Question: How do I clean the vacuum filter?```

Enviar para Claude ou GPT.

8️⃣ Resultado final⌗

A IA responde usando:

texto
imagens
vídeos
documentos

exatamente como no vídeo.

Visualmente o fluxo é⌗

Arquivos (texto imagem vídeo pdf) ↓ Gemini Embeddings ↓ Vetores ↓ Pinecone (vector database) ↓ Busca semântica ↓ LLM (Claude / GPT) ↓ Resposta final

Por que isso ficou mais fácil agora⌗

Antes você precisava:

OCR
pipeline de imagens
pipeline de vídeo
pipeline de texto
embeddings diferentes

Agora:

um embedding multimodal resolve tudo.

importante incluir:

descrições claras
contexto
metadata

Exemplo:

roof_type cost team_size damage_type

Quanto melhor o metadata, melhor o retrieval.

14. Mudança de habilidade no desenvolvimento⌗

Segundo o autor:

Antes o valor estava em:

configurar pipelines
manipular APIs
construir fluxos complexos

Agora o valor está em:

entender o processo
descrever sistemas claramente
fornecer contexto correto.

Conclusão do vídeo⌗

A combinação de:

Gemini Embeddings 2
Claude Code
Vector DB

permite criar sistemas RAG multimodais completos em minutos, algo que antes podia levar horas ou dias.

Resumo : Google's New Model + Claude Code Just Changed RAG Forever⌗

1. Novo modelo: Gemini Embeddings 2⌗

Primeiro modelo de embeddings multimodal nativo do Google.
Consegue representar no mesmo espaço vetorial:
texto
imagens
vídeos
áudio
documentos
Permite buscar relações semânticas entre diferentes tipos de mídia.

Resultado: bancos vetoriais realmente multimodais.

2. O que isso muda no RAG⌗

RAG significa Retrieval Augmented Generation.

Fluxo tradicional:

Dados são coletados (docs, imagens etc).
Conteúdo é dividido em chunks.
Chunks passam por um modelo de embedding.
Viram vetores numéricos.
São armazenados em um banco vetorial.
Na consulta, o sistema recupera os vetores mais próximos para gerar resposta.

Problema tradicional:

ingestão complexa
pipelines diferentes para texto, imagem, vídeo etc.

Com Gemini Embeddings 2:

tudo pode ir para o mesmo espaço vetorial.

3. Demo 1 — Chat com manual PDF⌗

Exemplo:

Input:

PDF de 68 páginas de um aspirador com texto e diagramas.

O sistema:

extrai texto
extrai imagens
gera embeddings
salva no Pinecone

Depois é possível perguntar:

Exemplo: "How do I clean the filter?"

Resposta inclui:

instruções em texto
diagramas da página correta
páginas de origem
score de similaridade

Benefício: imagens ajudam muito em instruções físicas.

4. Demo 2 — Busca visual em telhados⌗

Projeto para empresa de telhados.

Banco contém:

13 fotos de telhados
metadata (preço, tempo, equipe etc)

Usuário envia foto de um telhado.

Sistema:

gera embedding da imagem
busca telhados similares
retorna:

projetos semelhantes
faixa de preço
equipe usada
análise do problema

Uso real:

orçamento automático
histórico de obras
suporte técnico.

5. Como embeddings organizam o conhecimento⌗

Após gerar embeddings:

Tudo fica em um espaço multidimensional de significado.

Exemplo mostrado:

vídeo de cachorro tocando guitarra
foto de comida
texto sobre tecnologia

O modelo posiciona cada item por significado semântico.

Assim é possível:

pesquisar vídeo usando texto
pesquisar imagem usando outra imagem
pesquisar áudio usando texto.

6. Construção do sistema com Claude Code⌗

Ferramentas usadas:

Claude Code
Gemini Embeddings 2
Pinecone (vector DB)
OpenRouter (LLM gateway)
VS Code

O processo foi:

Criar projeto no VS Code
Instalar extensão Claude Code
Pedir em linguagem natural:

"Quero usar Gemini embeddings com Pinecone para armazenar imagens, vídeos e texto."

Claude Code:

cria estrutura do projeto
cria arquivos
cria dependências
cria pipeline de ingestão

7. APIs necessárias⌗

Três chaves:

Pinecone⌗

Para banco vetorial.

Gemini API⌗

Para gerar embeddings.

OpenRouter⌗

Para acessar modelos de chat (Claude).

8. Ingestão de dados⌗

Basta colocar arquivos em uma pasta:

data/

Pode incluir:

imagens
vídeos
textos
documentos

Claude Code:

processa tudo
gera embeddings
envia ao Pinecone.

9. Criação automática do app de chat⌗

Claude Code também criou:

backend
frontend
web chat local

Interface: Multimodal RAG Chat

O chat consulta o banco vetorial e responde.

10. Como o sistema trata imagens e vídeos⌗

Durante ingestão:

Ele cria:

embedding
descrição textual do conteúdo

Exemplo:

video: dog playing guitar description: cartoon golden retriever playing guitar in front of fireplace

Essas descrições ajudam na busca semântica.

11. Atualização para mostrar mídia⌗

Inicialmente o sistema retornava apenas:

nomes de arquivos

Depois foi atualizado para:

exibir imagens
reproduzir vídeos diretamente no chat.

12. Limitações atuais⌗

Algumas limitações mencionadas:

Vídeo:

até 120 segundos
formatos MP4 e MOV

Imagens:

até 6 por request
formatos PNG e JPEG

13. Importância do metadata⌗

Para RAG funcionar bem é

O Google lançou o Gemini Embedding 2 Preview, seu primeiro modelo de embeddings multimodal, capaz de indexar texto, imagens, vídeo, áudio e PDFs em um espaço vetorial unificado. Na prática, isso simplifica bastante a construção de sistemas de busca visual e RAG multimodal. Em vez de montar pipelines separados para OCR, descrição de imagens e tratamento de vídeo, agora boa parte dessa semântica pode ser tratada nativamente pelo modelo. Com ferramentas como Claude Code e um banco vetorial como Pinecone, dá para automatizar grande parte da ingestão e da indexação — embora ainda seja importante cuidar de metadados, atualização e estratégia de retrieval.

Ele explica muito bem

esta dublado

youtube.com/watch ↗

Gemini Embedding 2.0 (RAG)

chatgpt.com ↗

Tópico sobre Gemini Embedding 2, o primeiro modelo de embeddings…

💰 Custos de embeddings⌗

🔵 Gemini (Google)⌗

🟢 OpenAI⌗

⚖️ Comparação rápida⌗

🌐 Tem no OpenRouter?⌗

❌ Situação atual (2026)⌗

🧠 Conclusão direta⌗

O que o Gemini Embeddings faz⌗

O que é o RAG de verdade⌗

Então qual é o papel do Gemini Embeddings 2⌗

O que mudou com esse modelo⌗

O que o Claude Code fez no vídeo⌗

Em uma frase simples⌗

1️⃣ Criar as chaves de API⌗

2️⃣ Criar a estrutura do projeto⌗

3️⃣ Gerar embeddings (Gemini)⌗

4️⃣ Salvar no Pinecone⌗

5️⃣ Ingerir arquivos automaticamente⌗

Texto⌗

Imagem⌗

Vídeo⌗

6️⃣ Fazer busca (query)⌗

7️⃣ Enviar para o modelo de IA⌗

8️⃣ Resultado final⌗

Visualmente o fluxo é⌗

Por que isso ficou mais fácil agora⌗

14. Mudança de habilidade no desenvolvimento⌗

Conclusão do vídeo⌗

Resumo : Google's New Model + Claude Code Just Changed RAG Forever⌗

1. Novo modelo: Gemini Embeddings 2⌗

2. O que isso muda no RAG⌗

3. Demo 1 — Chat com manual PDF⌗

4. Demo 2 — Busca visual em telhados⌗

5. Como embeddings organizam o conhecimento⌗

6. Construção do sistema com Claude Code⌗

7. APIs necessárias⌗

Pinecone⌗

Gemini API⌗

OpenRouter⌗

8. Ingestão de dados⌗

9. Criação automática do app de chat⌗

10. Como o sistema trata imagens e vídeos⌗

11. Atualização para mostrar mídia⌗

12. Limitações atuais⌗

13. Importância do metadata⌗

Recursos