cerebro-vip INEMA.CLUB
inícioINEMA.N8N

Aula sobre os 4 tipos de RAG para agentes de IA, explicando quando…

INEMA.N8N · 2026-01-06 · ~8 min · ver no Telegram ↗

INEMA

🧠 HACKS DE DECISÃO (antes de codar)

1. Não comece pelo vector DB

Vector search é a última opção, não a primeira.

Hack mental

  • Pergunta simples → Filtro
  • Pergunta analítica → SQL
  • Pergunta explicativa → Contexto completo
  • Busca pontual → Vetores

2. Simule um humano primeiro

Antes de escolher RAG, pergunte:

“Se eu fosse humano, como responderia isso?”

  • Ctrl+F → Vetores
  • Filtro no Excel → Filters
  • Tabela dinâmica → SQL
  • Ler tudo → Full context

⚡ HACKS DE PERFORMANCE & CUSTO

3. Menos contexto = menos alucinação

Cada token extra:

  • aumenta custo
  • aumenta chance de erro

Hack

Traga só os dados necessários para o LLM, nunca “tudo”.


4. Filtro > SQL > Vetor (em custo)

Ordem de eficiência:

  1. Filtros
  2. SQL
  3. Vetores
  4. Full context

Use o mais simples que resolva.


5. Faça o banco pensar, não o LLM

Nunca peça para o LLM:

  • calcular médias
  • somar valores
  • ranquear produtos

Hack

Empurre toda matemática para SQL.


🧱 HACKS DE CONFIABILIDADE

6. Não confie em “semântica” para dados estruturados

Vetores são ruins para:

  • vendas
  • métricas
  • datas
  • números

Hack

Estruturado → regras explícitas, não embeddings.


7. Enumere valores válidos no system prompt

Filtros falham se o LLM errar a string.

Hack

Produtos válidos: - Bluetooth speaker - Wireless headphones - Phone case

Sem isso → filtro quebra silenciosamente.


8. Padronize formatos (datas, IDs, enums)

LLM ≠ mágico.

Hack

  • Sempre force:

  • formato de data

  • nomes de coluna
  • valores exatos

📚 HACKS DE CONTEXTO

9. Resumo ≠ Busca

Se a pergunta for:

  • “Resuma tudo”
  • “Explique o processo”
  • “Linha do tempo”

👉 Nunca use chunk-based retrieval sozinho


10. Use Full Context para “ordem importa”

Vetores:

  • não entendem sequência
  • não entendem começo/meio/fim

Hack

Ordem importa? Leia tudo.


11. Full context dinâmico > hardcoded

Não “cole” documentos no prompt fixo.

Hack

  • Injete documentos como variáveis
  • Mantém flexível
  • Evita refatoração futura

🧩 HACKS AVANÇADOS (nível produção)

12. Pipeline híbrido > RAG único

Exemplo real:

  1. Filtro → reduz dataset
  2. SQL → agrega dados
  3. Vetor → busca contexto textual
  4. LLM → responde

13. Use vetores só para decidir o que ler

Não para responder tudo.

Hack

  • Vetor decide o documento
  • LLM lê o documento inteiro selecionado

14. Limite chunks por pergunta

Mais chunks ≠ melhor resposta.

Hack

  • Comece com 4–6
  • Aumente só se necessário

15. Especialize agentes

Um agente ≠ tudo.

Hack

  • Agente de métricas (SQL)
  • Agente de suporte (vetor)
  • Agente de onboarding (full context)

🧪 HACK FINAL (o mais importante)

16. Context engineering > prompt engineering

Prompt bonito não salva:

  • dado ruim
  • contexto errado
  • pipeline mal pensado

Regra de ouro

A IA só é tão boa quanto o contexto que você entrega.

Ideia central

Não existe “um melhor RAG universal”. O tipo certo de RAG depende do tipo de pergunta, do formato dos dados e do contexto necessário para responder corretamente.

Antes de escolher tecnologia, é essencial:

  • Começar pelo objetivo final
  • Pensar que perguntas o agente vai receber
  • Definir que dados ele precisa olhar para responder bem

Problema do “RAG automático com vetor”

  • Muitas pessoas vão direto para vector database
  • Isso gera problemas de perda de contexto, principalmente:

  • Resumos completos

  • Dados tabulares (vendas, métricas, médias, rankings)
  • Chunk-based retrieval:

  • É rápido e barato

  • Mas quebra o contexto global
  • Pode gerar respostas incorretas para perguntas analíticas

Os 4 tipos de RAG apresentados

1. RAG com Filtros (Filter-based retrieval)

Como funciona

  • Aplica filtros explícitos (ex: produto = X, data = Y)
  • Retorna apenas as linhas relevantes

Quando usar

  • Dados estruturados (linhas e colunas)
  • Perguntas simples e diretas
  • Pequeno subconjunto de dados resolve a pergunta

Vantagens

  • Muito rápido
  • Barato
  • Alta precisão
  • Menos tokens → menos risco de alucinação

Regra prática

Se um humano usaria filtros no Excel, use filtros no RAG.


2. RAG com SQL (SQL Agent)

Como funciona

  • O agente gera queries SQL
  • O banco faz cálculos, agrupamentos e ordenações

Quando usar

  • Totais, médias, rankings, tendências
  • Perguntas que envolvem muitas linhas
  • Comparações e agregações

Vantagens

  • Muito mais confiável para dados tabulares
  • Mais preciso que chunk-based retrieval
  • Mais barato e correto que vector search para dados estruturados

Regra prática

Se um humano usaria tabela dinâmica ou fórmulas, use SQL.


3. RAG de Contexto Completo (Full Context)

Como funciona

  • O agente lê o documento inteiro
  • Sem chunking nem busca vetorial

Quando usar

  • Resumos completos
  • Linhas do tempo
  • Explicações passo a passo
  • Quando a ordem das informações importa
  • Base de dados pequena que cabe no contexto do modelo

Vantagens

  • Máxima precisão
  • Preserva o contexto completo

Desvantagens

  • Mais caro
  • Mais tokens
  • Pode bater limite de contexto (menos problemático hoje)

Regra prática

Se um humano leria o documento inteiro antes de responder, o agente também deve ler.


4. RAG com Vector Database (Chunk-based retrieval)

Como funciona

  • Documentos são quebrados em chunks
  • Busca semântica retorna apenas partes relevantes

Quando usar

  • Bases grandes
  • Perguntas pontuais (FAQ, busca de trechos específicos)
  • Quando custo e velocidade são prioridade

Vantagens

  • Muito escalável
  • Mais barato que full context em grandes volumes
  • Respostas rápidas

Limitações

  • Perda de ordem cronológica
  • Pode errar resumos globais
  • Ruim para cálculos e análises completas

Comparação rápida

Tipo de RAG Melhor para Evitar quando
Filtros Perguntas simples em dados tabulares Cálculos complexos
SQL Métricas, rankings, análises Texto longo
Contexto completo Resumos, timelines Bases grandes
Vetores Busca semântica Análises globais

Conceito-chave final: Context Engineering

O desempenho do agente depende de:

  1. Começar pelo objetivo final
  2. Projetar bem o pipeline de dados
  3. Garantir qualidade dos dados
  4. Otimizar uso de contexto
  5. Especializar o agente (não um RAG genérico)

4. Recuperação Baseada em Chunks (Busca Vetorial)

O que é

  • Os documentos são divididos em chunks (pedaços).
  • O agente recupera apenas as partes mais relevantes.
  • Normalmente utiliza um banco de dados vetorial.

Quando usar

  • Você tem uma base de conhecimento grande.
  • Os usuários fazem perguntas abertas.
  • Não é necessário manter a ordem completa do documento.

Exemplos comuns

  • “O que diz nossa política de reembolso?”
  • “Como funciona a autenticação?”
  • “Quais ferramentas se integram à nossa plataforma?”

Por que funciona bem

  • Escala bem para grandes volumes de dados.
  • Mais rápido e mais barato do que usar contexto completo.
  • Excelente para perguntas e respostas semânticas.

Onde iniciantes costumam errar

  • Resumos ruins.
  • Linhas do tempo incorretas.
  • Respostas incompletas quando o contexto completo é necessário.

Regra prática para iniciantes

  • Se os usuários fazem perguntas no estilo busca, use recuperação baseada em chunks.

3. Recuperação de Contexto Completo

O que é

  • O agente lê o documento inteiro ou o conjunto completo de documentos.
  • Nada é dividido em chunks.
  • A ordem e a estrutura do conteúdo são preservadas.

Quando usar

  • Você precisa de resumos, linhas do tempo ou explicações passo a passo.
  • A ordem das informações é importante.
  • O conjunto de dados é pequeno o suficiente para caber na janela de contexto do modelo.

Exemplos comuns

  • “Resuma este PDF do começo ao fim.”
  • “Explique as ideias principais deste documento de treinamento.”
  • “Quais são os passos descritos neste guia?”

Por que funciona bem

  • Maior nível de precisão para conteúdos longos.
  • Nenhum contexto é perdido.
  • Não mistura informações de fontes diferentes.

Regra prática para iniciantes

  • Se um humano leria o documento inteiro, use contexto completo.

2. Consultas SQL

O que é

  • Você está fazendo perguntas mais complexas sobre dados estruturados.
  • O agente gera uma consulta que realiza agrupamentos, ordenações ou cálculos.

Quando usar

  • Você precisa de totais, médias, rankings ou tendências.
  • A pergunta envolve muitas linhas ao mesmo tempo.
  • É necessário combinar ou comparar dados.

Exemplos comuns

  • “Top 5 produtos por receita.”
  • “Valor médio de pedido por mês.”
  • “Quais clientes gastam mais ao longo do tempo?”

Por que funciona bem

  • Bancos de dados são feitos para esse tipo de trabalho.
  • Muito mais confiável do que fazer a IA raciocinar sobre linhas brutas.
  • Ainda é mais barato e mais preciso do que busca vetorial para dados estruturados.

Regra prática para iniciantes

  • Se um humano usaria uma tabela dinâmica ou fórmulas, use SQL.

1. Filtros Simples de Banco de Dados

O que é

  • Você está dizendo ao sistema: traga apenas as linhas que correspondem a estas regras.
  • Exemplos de regras: produto = X, data = Y, status = aberto.

Quando usar

  • Seus dados estão estruturados em linhas e colunas.
  • Você já sabe exatamente quais campos deseja filtrar.
  • A pergunta pode ser respondida analisando apenas um pequeno subconjunto de registros.

Exemplos comuns

  • “Quantos pedidos tivemos hoje?”
  • “Mostre todos os tickets de suporte que ainda estão abertos.”
  • “Receita total do produto A nesta semana.”

Por que funciona bem

  • Rápido.
  • Barato.
  • Muito preciso.
  • Escala bem para grandes volumes de dados.

Regra prática para iniciantes

  • Se um humano usaria filtros em uma planilha, use filtros no n8n.

🛠️ Guia de Configuração

Este guia descreve os quatro métodos discutidos no vídeo do YouTube. O objetivo deste template é mostrar como os system prompts foram estruturados e como os agentes foram configurados.

⚠️ Observação: Esta configuração não inclui todos os conjuntos de dados. É recomendado que você crie os seus próprios usando ferramentas de IA como ChatGPT ou Claude.


🧪 Método 1: Filtros

Use filtros para restringir os dados com base em critérios pré-definidos. Ideal para limpeza inicial de dados e roteamento de informações.

🧾 Método 2: Consulta SQL

Gere consultas SQL dinamicamente a partir de prompts em linguagem natural para interagir com bancos de dados estruturados.

📚 Método 3: Contexto Completo

Forneça aos agentes todo o contexto conversacional ou relacionado à tarefa, permitindo tomadas de decisão mais precisas.

🧠 Método 4: Busca Vetorial

Utilize embeddings vetoriais para busca semântica, permitindo que o sistema recupere os trechos de informação mais relevantes.


🧰 Teste Você Mesmo

Quer experimentar? Use o ChatGPT ou o Claude para gerar seus próprios dados:

  • Criar filtros de exemplo ou prompts SQL
  • Gerar dados de contexto simulados para agentes
  • Testar recuperação baseada em vetores nos seus próprios fluxos do n8n

dublado

Which Type of RAG Agent is Best? (Simple Breakdown)

ap85 - 4 Tipos RAG

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗