Aula/referência sobre como construir um sistema RAG avançado no n8n,…
INEMA
os Dois jeitos de montar RAG no n8n, e a diferença está no nível de “inteligência” do sistema:
1) RAG Simples (primeira versão)⌗
- Fluxo: Upload de documentos → Embeddings (modelo fraco, tipo OpenAI pequeno) → Pinecone Vector Store → Chatbot consulta.
-
Características:
-
Funciona, mas a recuperação é limitada.
- Usa embeddings básicos (secretário “nível 1”), então a organização da base é ruim.
- Não tem rerank, devolve direto os chunks do Pinecone.
- Problema: respostas superficiais, perda de contexto, mais alucinações.
2) RAG Avançado (segunda versão)⌗
- Fluxo: Upload de documentos → Embeddings com modelo de ponta (Hugging Face multilingual-e5-large) → Pinecone Vector Store → Cohere Re-ranker → Chatbot consulta.
-
Características:
-
Embeddings de qualidade (secretário “nível 10”), entendem melhor semântica e múltiplos idiomas.
- Usa re-ranking: traz 20 resultados do Pinecone e o Cohere seleciona os 4 mais relevantes.
- Prompt do agente otimizado com regras de tool use + query rewriting.
- Vantagem: respostas muito mais relevantes, contextuais e confiáveis.
Resumindo a diferença⌗
- RAG simples = embeddings básicos + sem reranking → barato e fácil, mas impreciso.
- RAG avançado = embeddings top + reranker + prompt estruturado → mais caro, mas muito mais útil em produção.
Aqui estão hacks práticos para turbinar o fluxo RAG no n8n com Pinecone e Hugging Face:
Hacks de Ingestão⌗
- Hash do documento: antes de inserir no Pinecone, gere um hash (MD5/SHA) do conteúdo e guarde nos metadados → evita reprocessar duplicados.
- Metadados inteligentes: salve
source,lang,categoria,versão→ isso permite filtros rápidos em consultas futuras. - Chunk adaptativo: use chunk maior (2000+ tokens) para documentos técnicos e menor (500–800) para FAQs curtas → melhora precisão.
Hacks de Consulta⌗
- Query rewriting: insira um nó antes da busca que transforma a pergunta do usuário em 2–3 variações → aumenta recall.
- Multi-query: combine resultados de várias reformulações antes de mandar ao Cohere re-rank.
- Re-rank em camadas: Cohere como filtro inicial (top 20 → top 4), depois peça ao LLM para validar a coerência.
Hacks de Agente⌗
- Prompt do agente com instruções claras: force-o a usar sempre a ferramenta para dados internos → reduz alucinação.
- Fallback: se não encontrar nada no Pinecone, o agente deve pedir clarificação em vez de inventar resposta.
- Contexto numerado: instrua o agente a numerar os trechos citados → facilita checagem e debug.
Hacks de Produção⌗
- Logs detalhados: salve no Airtable/Google Sheets cada consulta, documentos retornados, tempo de execução e índice consultado.
- Observabilidade: configure um nó para enviar erros e métricas de latência para o Telegram/Slack.
- Controle de versões: inclua um campo
versionnos metadados e use filtros no Pinecone → mantém histórico limpo. - Custos sob controle: use Hugging Face embeddings gratuitos + Pinecone (starter tier) em testes; só escale quando o recall estiver validado.
padronizados para filtro futuro: source, product, locale, version.
8) Alternativas de nós⌗
- Se não tiver os nós nativos, use HTTP Request para Pinecone upsert/query e Hugging Face Inference API.
- Re-ranking alternativo: implementar re-ranking por LLM com instruções de comparação se não houver Cohere.
9) Hacks úteis⌗
- Padronize nomes dos índices por projeto e idioma para evitar colisão.
- Salve também o texto bruto e o hash do documento nos metadados para evitar re-ingestões duplicadas.
- Crie um pequeno nó de pré-consulta que expanda a pergunta do usuário em 2 a 4 subconsultas (query rewriting) e use cada uma no Pinecone; concatene resultados antes do re-ranking.
- Inclua um campo language nos metadados e use o mesmo modelo multilingual para combinar conteúdos PT/EN sem perda.
10) Pronto para produção⌗
- Logs: armazene pergunta, subconsultas, ids dos chunks e latências em planilha ou banco.
- Observabilidade: ative salvar execução no n8n para inspecionar chamadas de ferramenta.
- Versão de acervo: inclua version nos metadados e filtre por versão corrente nas consultas.
- Front-end: publique o Chat Trigger como endpoint público ou consuma via webhook numa página própria.
Passo a passo formatado — n8n AI RAG com Pinecone, Hugging Face e Re-ranking⌗
0) Pré-requisitos⌗
- Contas e chaves: Pinecone, Hugging Face, provedor do LLM (Anthropic, OpenAI etc.), n8n em execução.
- Modelo de embeddings: intfloat/multilingual-e5-large-instruct.
- Observação de dimensão do índice: verifique a dimensão do modelo de embeddings ao criar o índice no Pinecone (para E5 large costuma ser 1024).
1) Criar o índice no Pinecone⌗
- Acesse o console do Pinecone e crie um índice.
- Nome: algo simples, minúsculas (ex.: pizza).
- Dimensão: a do modelo de embeddings (ex.: 1024).
- Métrica: cosine.
- Região/host: escolha a mais próxima.
- Gere uma API Key e guarde o environment/host do índice.
Exemplo de decisão rápida nome = pizza | dimensão = 1024 | métrica = cosine
2) Conectar credenciais no n8n⌗
- Crie credenciais Pinecone com API Key e host do índice.
- Crie credenciais Hugging Face com um Access Token com permissões padrão.
- Garanta credenciais do LLM que suportem tool calling.
3) Fluxo de ingestão de documentos⌗
Nós mínimos
-
Form Trigger (ou Webhook) finalidade: receber upload de arquivos (PDF, DOCX, CSV, TXT). campo: file com tipo Binary.
-
Pinecone Vector Store — Add Documents embeddings: Hugging Face Inference modelo: intfloat/multilingual-e5-large-instruct data loader: default data type: Binary text splitter: RecursiveCharacterTextSplitter chunk_size: 2000 chunk_overlap: 200 metadados opcionais: source, category, lang, tags
-
(Opcional) Set/Function enriqueça metadados antes do upsert, por exemplo: source = filename, category = contrato, tags = [vendas, 2025]
Checklist rápido de ingestão receber arquivo → dividir texto em chunks → gerar embeddings (HF) → upsert no Pinecone
4) Fluxo de consulta com agente⌗
Nós mínimos
-
Chat Trigger inicia uma conversa de teste.
-
AI Agent modelo que chama ferramentas com precisão system message detalhada (ver seção 5) sem memória obrigatória neste exemplo
-
Pinecone Vector Store — Query mesmo índice do Pinecone mesmo modelo de embeddings do passo de ingestão topK inicial: 20 descrição do tool: base RAG com conhecimento X
-
Cohere Rerank entrada: os 20 resultados do Pinecone saída: top 4 mais relevantes conecte essa saída como contexto final para o agente
Fluxo lógico pergunta do usuário → agent decide usar a ferramenta → query no Pinecone (top 20) → Cohere rerank (top 4) → resposta final usando somente esses trechos
5) System message do agente (modelo)⌗
Cole algo assim no campo de system message do AI Agent:
Função você é um agente de respostas precisas baseado em RAG. Use a ferramenta de busca no vetor store sempre que a pergunta exigir dados do acervo.
Regras de ferramentas se a pergunta for sobre conteúdos internos, chame a ferramenta de busca. não invente conteúdo fora das fontes retornadas. responda somente com base nos trechos recuperados.
Comportamento de recuperação gere subconsultas quando a pergunta for ambígua. prefira nomes próprios, datas e termos-chave da pergunta ao formar a query. se nada relevante vier, peça esclarecimento objetivo em uma frase.
Formatação de saída resuma em 3 a 7 pontos. inclua uma seção final chamada fontes com títulos e trechos curtos dos documentos usados.
Limites se a confiança estiver baixa, avise e proponha perguntas de follow-up.
6) Teste guiado⌗
- Ingestão: execute o fluxo de ingestão e envie 2 a 3 arquivos reais.
- Pinecone: verifique se o índice recebeu vetores.
- Consulta: abra o Chat Trigger e pergunte algo que esteja nos arquivos.
- Valide o caminho: o agente deve chamar a ferramenta, trazer top 20, re-ranquear top 4 e responder com base nessas fontes.
Pergunta de exemplo quais são as políticas de reembolso do plano premium e quais exceções se aplicam a compras internacionais
7) Parâmetros recomendados⌗
- chunk_size 2000 e overlap 200 para documentos narrativos longos.
- topK Pinecone 20; Cohere rerank para 4.
- timeout do LLM aumentado quando a resposta exigir síntese longa.
- metadados
Resumo do vídeo
O criador explica como usar RAG (Retrieval Augmented Generation) de forma correta no n8n para deixar agentes de IA até 10 vezes mais inteligentes do que a maioria das empresas está aplicando hoje.
Principais pontos:
- Explica a metáfora do “secretário” e o “arquivo”: em vez de depender apenas da memória curta (modelo puro), o RAG permite buscar dados relevantes num “armário de arquivos” (base vetorial).
- Mostra que o segredo está na qualidade da vetorização: a maioria usa embeddings ruins (secretário nível 1), enquanto ele ensina a usar modelos de topo (secretário nível 10), como o Multilingual-e5-large.
-
Demonstra como montar o fluxo no n8n sem precisar programar:
-
Criar formulário ou integrar Google Drive para enviar arquivos.
- Conectar ao Pinecone como vetor store.
- Configurar Hugging Face para usar embeddings de alto desempenho.
- Ajustar o corte de texto (text splitter) para melhorar a recuperação.
- Explica como adicionar o re-ranker da Cohere para refinar as respostas: o “super secretário” que escolhe os melhores resultados entre os retornados.
- Ensina a integrar com agentes de IA (Anthropic, GPT, etc.) para usar as ferramentas e gerar respostas consistentes.
- Mostra como configurar prompts com instruções detalhadas (role, domínios, estilo, formato de saída) para que os agentes entendam exatamente o que fazer.
- Destaca que o sistema funciona em múltiplos idiomas e pode ser aplicado em diferentes áreas (como negócios específicos).
- Finaliza indicando como levar os resultados para um front-end ou aplicação web para clientes e equipes.
j103. Sistema RAG de IA Poderoso
Como ficar à frente de 99% das empresas (n8n AI RAG)
Vou mostrar como você pode ficar à frente de 99% das empresas usando um sistema simples de tags. Incluo um modelo de vetorização superior e mostro como isso vai tornar seus agentes super inteligentes.
Ferramentas 🧰 👋 Hugging Face: https://huggingface.co/
✔️ Pinecone: https://www.pinecone.io/
🧠 n8n: n8n.io ↗
🏷️ nome do modelo: intfloat/multilingual-e5-large-instruct
j103 - N8n RAG AI
1