Conteúdo educacional sobre construção de pipelines RAG automatizados…
INEMA
Automatizar todo o processo de “base de conhecimento da empresa”, que aumenta os lucros das empresas 🚀
Não acredito que vou te entregar esse sistema completo de graça…
Esses agentes RAG no n8n são absolutamente essenciais na indústria de IA neste momento.
Toda empresa precisa de um agente RAG de Base de Conhecimento.
Veja o que minha automação no n8n faz:
- Pega todos os arquivos do Google Drive da sua empresa
- Analisa os arquivos e extrai o contexto
- Cria fragmentos (usando estratégia de chunking agentic)
- Gera conhecimento contextual (seguindo o paper da Anthropic)
- Faz embedding em um banco vetorial
- Constrói um grafo de conhecimento
- Recupera informações e armazena memórias
Demorei 6 meses para construir esse template — e estou entregando gratuitamente.
- ✅ Zero trabalho manual
- ✅ Zero habilidades técnicas necessárias
Basta inserir os dados da sua empresa e pronto.
O fluxo inclui:
- Workflow de Embedding de Dados
- Ferramenta de análise de imagem e busca na web
- Memória de curto e longo prazo
- Sistema RAG Agentic
- Tratamento automático de arquivos excluídos
Este é o melhor template RAG com n8n do mundo, e você está recebendo de graça porque todo mundo está me mandando mensagem pedindo por ele.
Baixe o arquivo JSON completo e leia os comentários com o guia de configuração. Não perca essa oportunidade!
RAG para Iniciantes
Video q Ensina os Fundamentos de RAG
| Divida por seções e aplique sumários locais. | | Como reduzir custo? | Chunking, batch embeddings e re-embedding seletivo. |
Guia Avançado: Hacks para um Pipeline RAG Perfeito (n8n + Google Drive + Supabase)⌗
Visão Geral⌗
O objetivo é ter dados atualizados, limpos e confiáveis — garantindo que seus agentes RAG respondam com precisão, sem erros nem duplicações. Esses hacks otimizam velocidade, custo, manutenção e segurança do sistema.
1. Organização e Identificação⌗
1.1 Use IDs únicos e fixos (file_id) Evite usar nomes de arquivo, que mudam. Exemplo:
metadata => { file_id: {{ $json["id"] }}, file_name: {{ $json["name"] }} }
1.2 Evite duplicação com pré-checagem (idempotência) Antes de inserir, apague possíveis registros antigos:
DELETE FROM documents WHERE metadata->>'file_id' = {{ $json["id"] }}
2. Estrutura dos Dados⌗
2.1 Chunking inteligente Divida documentos grandes em partes de 400–800 tokens. Inclua no metadata:
chunk_index, section, paragraph
2.2 Metadados úteis
Guarde informações valiosas para rastrear e filtrar:
file_id, file_name, upload_date, source, author, checksum
2.3 Checksum (detector de mudanças) Gere hash (ex.: SHA256) do conteúdo para detectar alterações mínimas:
if hash != old_hash → reprocessar arquivo
3. Atualizações e Exclusões⌗
3.1 Atualizações automáticas Use triggers “File Updated” e delete os vetores antigos antes de regravar. Evite acúmulo de versões.
3.2 Exclusões seguras Como o Drive não tem gatilho “File Deleted”:
- Crie uma pasta “lixeira”.
- Mover arquivo para lá → dispara exclusão no Supabase.
4. Desempenho e Custo⌗
4.1 Batch embeddings Agrupe 8–16 chunks por chamada de embedding → menor custo.
4.2 Re-embedding seletivo Recrie embeddings apenas de arquivos alterados ou mais usados.
4.3 Modelo consistente Use sempre o mesmo modelo de embedding para indexar e consultar.
5. Precisão e Qualidade⌗
5.1 Reranking híbrido Combine busca semântica (embeddings) com busca lexical (BM25) para melhorar precisão.
5.2 Prompting com contexto Ao consultar:
"Considere apenas documentos com metadata.source='policy' e data > 2024-01-01"
6. Segurança e Confiabilidade⌗
6.1 Controle de execução Use Execute only once no n8n para evitar duplicidade.
6.2 Segurança das chaves Guarde credenciais no n8n Credentials. Proteja tabelas no Supabase com RLS (Row-Level Security).
6.3 Monitoramento e alertas Crie alertas quando houver:
- Falha de conexão
- Zero vetores processados
- Execução repetida
7. Manutenção e Escalabilidade⌗
7.1 Log detalhado
Registre:
event_id, file_id, tempo de execução, rows afetadas, hash
7.2 Ambientes separados Tenha pastas/bancos “dev” e “prod” no Supabase.
7.3 Política de retenção Remova embeddings antigos que não são mais usados. Execute verificação mensal por “last_query_date”.
8. Testes e Validação⌗
Checklist de teste:
- Adicione um arquivo → aparece no Supabase?
- Atualize o arquivo → substitui corretamente?
- Mova para “lixeira” → registros excluídos?
- Execute o agente → responde com dados novos?
9. Exemplos práticos⌗
Expressão para exclusão por file_id
metadata->>file_id = {{ $json["id"] }}
Metadados no upload
{
"file_id": "{{ $json['id'] }}",
"file_name": "{{ $json['name'] }}",
"upload_date": "{{ $now }}",
"chunk_index": "{{ $json['index'] }}"
}
Verificação de alteração
if db.get(file_id).hash != new_hash:
delete_vectors(file_id)
process_and_insert(file)
10. FAQ Rápido⌗
| Pergunta | Resposta |
|---|---|
| Posso usar file_name como chave? | Sim, mas arriscado. Prefira file_id. |
| Preciso re-embed tudo se trocar de modelo? | Sim, os embeddings mudam. |
| Como testar sem impactar produção? | Use pastas e tabelas separadas (“rag-dev”). |
| PDFs muito grandes? |
Passo a passo para construir o pipeline RAG automático (mantendo os agentes atualizados com n8n, Google Drive e Supabase)
1. Conceito geral⌗
O objetivo é criar um pipeline automatizado que:
- Adiciona automaticamente arquivos novos do Google Drive ao banco vetorial (Supabase).
- Atualiza os vetores quando um arquivo é alterado.
- Remove os vetores quando o arquivo é excluído (ou movido para a pasta “lixeira”).
2. Estrutura do sistema⌗
- Fonte de dados: Google Drive (pasta “rag”)
- Processamento: n8n (integração e automação)
- Destino: Supabase (armazenamento vetorial)
- Modelo de embedding: OpenAI (Text Embedding 3 Small)
3. Fluxo 1 — Adicionar novos arquivos⌗
Objetivo: Quando um novo documento for colocado na pasta “rag”, ele deve ser convertido em PDF e inserido no Supabase.
Passos no n8n:
- Trigger (Google Drive node):
- Tipo: On file changes in a specific folder
- Escolha a pasta “rag”.
- Ação: File Created.
- Download do arquivo:
- Adicione outro node “Google Drive”.
- Ação: Download File.
- Configure para baixar pelo ID do arquivo vindo do trigger.
- Ative a conversão automática para PDF.
- Envio ao Supabase:
- Adicione node “Supabase Vector Store”.
- Ação: Insert Document.
- Configure a tabela “documents”.
- Insira o binário (PDF).
-
Adicione metadados:
- file_name = nome do arquivo.
- date = {{ $now }} (data e hora do upload).
- Adicionar embeddings:
- Configure um node de embeddings da OpenAI.
- Modelo: text-embedding-3-small.
- Relacione com o Supabase.
Resultado: Cada novo arquivo na pasta “rag” é convertido em PDF, vetorizado e armazenado com metadados.
4. Fluxo 2 — Atualizar arquivos modificados⌗
Objetivo: Se um arquivo for alterado no Drive, o pipeline apaga os vetores antigos e grava os novos.
Passos:
- Trigger (Google Drive node):
- Tipo: On file changes in a specific folder.
- Pasta: “rag”.
- Ação: File Updated.
- Excluir vetores antigos:
- Adicione node “Supabase”.
- Ação: Delete a Row.
- Tabela: “documents”.
- Condição:
metadata->>file_name LIKE {{ nome_do_arquivo }}.
- Baixar e reenviar o arquivo atualizado:
- Adicione outro node “Google Drive (Download File)”.
- Configure para converter para PDF.
- Adicione novamente o node “Supabase Vector Store”.
- Envie o novo arquivo com embeddings e novos metadados (data e hora).
Resultado: Toda vez que um arquivo é editado no Google Drive, o Supabase atualiza automaticamente o vetor.
5. Fluxo 3 — Excluir arquivos⌗
Objetivo: Quando um arquivo for movido para a pasta “lixeira”, os vetores correspondentes devem ser removidos.
Passos:
- Trigger (Google Drive node):
- Tipo: On file changes in a specific folder.
- Pasta: “lixeira”.
- Ação: File Created.
- Excluir vetores correspondentes:
- Node “Supabase”.
- Ação: Delete a Row.
- Condição:
metadata->>file_name LIKE {{ nome_do_arquivo }}.
Resultado: Arquivos movidos para a “lixeira” têm seus vetores automaticamente apagados.
6. Teste de funcionamento⌗
- Adicionar arquivo:
- Coloque um novo PDF ou Google Doc na pasta “rag”.
- Verifique se ele aparece no Supabase (tabela “documents”).
- Atualizar arquivo:
- Edite o documento no Drive.
- Confirme se os vetores antigos são removidos e substituídos.
- Excluir arquivo:
- Mova o arquivo para a pasta “lixeira”.
- Verifique se o registro foi excluído do Supabase.
7. Integração com agente de IA⌗
- Configure um agente (por exemplo, com ChatGPT ou outro modelo) para consultar diretamente o banco vetorial do Supabase.
- Agora ele sempre responderá com base nos arquivos mais recentes e confiáveis.
8. Resultado final⌗
Com esse sistema, o banco vetorial e os agentes RAG permanecem sempre sincronizados, garantindo:
- Atualizações automáticas.
- Dados limpos e consistentes.
- Processos sem intervenção manual.
Resumo do vídeo “Keep Your RAG Agents ACCURATE: Beginner’s Guide”
O criador ensina como manter agentes RAG (Retrieval-Augmented Generation) sempre precisos e atualizados, automatizando a sincronização entre arquivos do Google Drive e um banco vetorial no Supabase.
-
Importância do pipeline de dados Ele explica que um bom pipeline garante que os agentes de IA usem dados confiáveis e atualizados. Dados desorganizados ou antigos resultam em respostas erradas. O pipeline deve automatizar o fluxo de atualização, processamento e exclusão dos arquivos no banco vetorial.
-
Estrutura do pipeline RAG Ele divide o sistema em três etapas:
- Entrada (raw data): onde os dados chegam (por exemplo, upload de PDFs, CSVs, Docs).
- Processamento: limpeza, conversão e adição de metadados.
- Saída: armazenamento final no banco vetorial (Supabase). O exemplo prático usa Google Drive como fonte e Supabase como destino.
- Primeiro fluxo – Upload automático
- Quando um arquivo é adicionado à pasta “rag” no Google Drive, ele é baixado, convertido em PDF e enviado ao Supabase.
- O n8n adiciona metadados como nome e data, e o documento é vetorizado usando OpenAI Embeddings.
- O agente pode consultar o conteúdo do documento imediatamente.
- Segundo fluxo – Atualização automática
- Quando um arquivo é modificado no Drive, o n8n detecta a mudança.
- Os vetores antigos com o mesmo nome de arquivo são excluídos do Supabase.
- O novo arquivo é baixado e reenviado para atualizar o banco vetorial.
- Isso mantém o conteúdo sincronizado com a versão mais recente do arquivo.
- Terceiro fluxo – Exclusão automática
- Como o Google Drive não possui um gatilho nativo para “arquivo excluído”, é usada uma solução alternativa: uma pasta “lixeira”.
- Quando um arquivo é movido para essa pasta, o n8n aciona o fluxo e apaga automaticamente os vetores correspondentes no Supabase.
- Conclusão e comunidade O autor reforça que o foco é entender a lógica de automação, não a otimização de embeddings. Ele oferece o fluxo completo e notas no grupo da comunidade gratuita, além de um curso pago com aulas sobre criação de agentes e automação com n8n e Supabase.
Exemplo de aplicação prática: Ao inserir, editar ou remover um PDF no Google Drive, o Supabase é automaticamente atualizado, garantindo que os agentes de IA consultem sempre dados válidos e recentes.
Construa seu primeiro pipeline RAG para um RAG melhor (passo a passo)
Se você está criando agentes RAG no n8n, este é um dos tutoriais mais importantes que você vai assistir.
Neste vídeo passo a passo, eu vou mostrar como construir um pipeline RAG (Retrieval-Augmented Generation) completamente sem código.
Essa configuração mantém seu banco de dados sincronizado automaticamente com seus arquivos de origem, de modo que, quando você atualiza ou exclui um arquivo, o banco de dados também é atualizado.
Isso significa que seus agentes de IA sempre pesquisam dados precisos e confiáveis, em vez de informações desatualizadas. Sem esse sistema em funcionamento, você não pode confiar nas respostas da sua IA.
Ao final do vídeo, você vai entender exatamente como conectar tudo dentro do n8n, Google Drive e Supabase, mesmo que seja um iniciante completo.
ap67 - o RAG Perfeito
1