Aula sobre os 4 tipos de RAG para agentes de IA, explicando quando…
INEMA
🧠 HACKS DE DECISÃO (antes de codar)⌗
1. Não comece pelo vector DB⌗
Vector search é a última opção, não a primeira.
Hack mental
- Pergunta simples → Filtro
- Pergunta analítica → SQL
- Pergunta explicativa → Contexto completo
- Busca pontual → Vetores
2. Simule um humano primeiro⌗
Antes de escolher RAG, pergunte:
“Se eu fosse humano, como responderia isso?”
- Ctrl+F → Vetores
- Filtro no Excel → Filters
- Tabela dinâmica → SQL
- Ler tudo → Full context
⚡ HACKS DE PERFORMANCE & CUSTO⌗
3. Menos contexto = menos alucinação⌗
Cada token extra:
- aumenta custo
- aumenta chance de erro
Hack
Traga só os dados necessários para o LLM, nunca “tudo”.
4. Filtro > SQL > Vetor (em custo)⌗
Ordem de eficiência:
- Filtros
- SQL
- Vetores
- Full context
Use o mais simples que resolva.
5. Faça o banco pensar, não o LLM⌗
Nunca peça para o LLM:
- calcular médias
- somar valores
- ranquear produtos
Hack
Empurre toda matemática para SQL.
🧱 HACKS DE CONFIABILIDADE⌗
6. Não confie em “semântica” para dados estruturados⌗
Vetores são ruins para:
- vendas
- métricas
- datas
- números
Hack
Estruturado → regras explícitas, não embeddings.
7. Enumere valores válidos no system prompt⌗
Filtros falham se o LLM errar a string.
Hack
Produtos válidos:
- Bluetooth speaker
- Wireless headphones
- Phone case
Sem isso → filtro quebra silenciosamente.
8. Padronize formatos (datas, IDs, enums)⌗
LLM ≠ mágico.
Hack
-
Sempre force:
-
formato de data
- nomes de coluna
- valores exatos
📚 HACKS DE CONTEXTO⌗
9. Resumo ≠ Busca⌗
Se a pergunta for:
- “Resuma tudo”
- “Explique o processo”
- “Linha do tempo”
👉 Nunca use chunk-based retrieval sozinho
10. Use Full Context para “ordem importa”⌗
Vetores:
- não entendem sequência
- não entendem começo/meio/fim
Hack
Ordem importa? Leia tudo.
11. Full context dinâmico > hardcoded⌗
Não “cole” documentos no prompt fixo.
Hack
- Injete documentos como variáveis
- Mantém flexível
- Evita refatoração futura
🧩 HACKS AVANÇADOS (nível produção)⌗
12. Pipeline híbrido > RAG único⌗
Exemplo real:
- Filtro → reduz dataset
- SQL → agrega dados
- Vetor → busca contexto textual
- LLM → responde
13. Use vetores só para decidir o que ler⌗
Não para responder tudo.
Hack
- Vetor decide o documento
- LLM lê o documento inteiro selecionado
14. Limite chunks por pergunta⌗
Mais chunks ≠ melhor resposta.
Hack
- Comece com 4–6
- Aumente só se necessário
15. Especialize agentes⌗
Um agente ≠ tudo.
Hack
- Agente de métricas (SQL)
- Agente de suporte (vetor)
- Agente de onboarding (full context)
🧪 HACK FINAL (o mais importante)⌗
16. Context engineering > prompt engineering⌗
Prompt bonito não salva:
- dado ruim
- contexto errado
- pipeline mal pensado
Regra de ouro
A IA só é tão boa quanto o contexto que você entrega.
Ideia central⌗
Não existe “um melhor RAG universal”. O tipo certo de RAG depende do tipo de pergunta, do formato dos dados e do contexto necessário para responder corretamente.
Antes de escolher tecnologia, é essencial:
- Começar pelo objetivo final
- Pensar que perguntas o agente vai receber
- Definir que dados ele precisa olhar para responder bem
Problema do “RAG automático com vetor”⌗
- Muitas pessoas vão direto para vector database
-
Isso gera problemas de perda de contexto, principalmente:
-
Resumos completos
- Dados tabulares (vendas, métricas, médias, rankings)
-
Chunk-based retrieval:
-
É rápido e barato
- Mas quebra o contexto global
- Pode gerar respostas incorretas para perguntas analíticas
Os 4 tipos de RAG apresentados⌗
1. RAG com Filtros (Filter-based retrieval)⌗
Como funciona
- Aplica filtros explícitos (ex: produto = X, data = Y)
- Retorna apenas as linhas relevantes
Quando usar
- Dados estruturados (linhas e colunas)
- Perguntas simples e diretas
- Pequeno subconjunto de dados resolve a pergunta
Vantagens
- Muito rápido
- Barato
- Alta precisão
- Menos tokens → menos risco de alucinação
Regra prática
Se um humano usaria filtros no Excel, use filtros no RAG.
2. RAG com SQL (SQL Agent)⌗
Como funciona
- O agente gera queries SQL
- O banco faz cálculos, agrupamentos e ordenações
Quando usar
- Totais, médias, rankings, tendências
- Perguntas que envolvem muitas linhas
- Comparações e agregações
Vantagens
- Muito mais confiável para dados tabulares
- Mais preciso que chunk-based retrieval
- Mais barato e correto que vector search para dados estruturados
Regra prática
Se um humano usaria tabela dinâmica ou fórmulas, use SQL.
3. RAG de Contexto Completo (Full Context)⌗
Como funciona
- O agente lê o documento inteiro
- Sem chunking nem busca vetorial
Quando usar
- Resumos completos
- Linhas do tempo
- Explicações passo a passo
- Quando a ordem das informações importa
- Base de dados pequena que cabe no contexto do modelo
Vantagens
- Máxima precisão
- Preserva o contexto completo
Desvantagens
- Mais caro
- Mais tokens
- Pode bater limite de contexto (menos problemático hoje)
Regra prática
Se um humano leria o documento inteiro antes de responder, o agente também deve ler.
4. RAG com Vector Database (Chunk-based retrieval)⌗
Como funciona
- Documentos são quebrados em chunks
- Busca semântica retorna apenas partes relevantes
Quando usar
- Bases grandes
- Perguntas pontuais (FAQ, busca de trechos específicos)
- Quando custo e velocidade são prioridade
Vantagens
- Muito escalável
- Mais barato que full context em grandes volumes
- Respostas rápidas
Limitações
- Perda de ordem cronológica
- Pode errar resumos globais
- Ruim para cálculos e análises completas
Comparação rápida⌗
| Tipo de RAG | Melhor para | Evitar quando |
|---|---|---|
| Filtros | Perguntas simples em dados tabulares | Cálculos complexos |
| SQL | Métricas, rankings, análises | Texto longo |
| Contexto completo | Resumos, timelines | Bases grandes |
| Vetores | Busca semântica | Análises globais |
Conceito-chave final: Context Engineering⌗
O desempenho do agente depende de:
- Começar pelo objetivo final
- Projetar bem o pipeline de dados
- Garantir qualidade dos dados
- Otimizar uso de contexto
- Especializar o agente (não um RAG genérico)
4. Recuperação Baseada em Chunks (Busca Vetorial)⌗
O que é
- Os documentos são divididos em chunks (pedaços).
- O agente recupera apenas as partes mais relevantes.
- Normalmente utiliza um banco de dados vetorial.
Quando usar
- Você tem uma base de conhecimento grande.
- Os usuários fazem perguntas abertas.
- Não é necessário manter a ordem completa do documento.
Exemplos comuns
- “O que diz nossa política de reembolso?”
- “Como funciona a autenticação?”
- “Quais ferramentas se integram à nossa plataforma?”
Por que funciona bem
- Escala bem para grandes volumes de dados.
- Mais rápido e mais barato do que usar contexto completo.
- Excelente para perguntas e respostas semânticas.
Onde iniciantes costumam errar
- Resumos ruins.
- Linhas do tempo incorretas.
- Respostas incompletas quando o contexto completo é necessário.
Regra prática para iniciantes
- Se os usuários fazem perguntas no estilo busca, use recuperação baseada em chunks.
3. Recuperação de Contexto Completo⌗
O que é
- O agente lê o documento inteiro ou o conjunto completo de documentos.
- Nada é dividido em chunks.
- A ordem e a estrutura do conteúdo são preservadas.
Quando usar
- Você precisa de resumos, linhas do tempo ou explicações passo a passo.
- A ordem das informações é importante.
- O conjunto de dados é pequeno o suficiente para caber na janela de contexto do modelo.
Exemplos comuns
- “Resuma este PDF do começo ao fim.”
- “Explique as ideias principais deste documento de treinamento.”
- “Quais são os passos descritos neste guia?”
Por que funciona bem
- Maior nível de precisão para conteúdos longos.
- Nenhum contexto é perdido.
- Não mistura informações de fontes diferentes.
Regra prática para iniciantes
- Se um humano leria o documento inteiro, use contexto completo.
2. Consultas SQL⌗
O que é
- Você está fazendo perguntas mais complexas sobre dados estruturados.
- O agente gera uma consulta que realiza agrupamentos, ordenações ou cálculos.
Quando usar
- Você precisa de totais, médias, rankings ou tendências.
- A pergunta envolve muitas linhas ao mesmo tempo.
- É necessário combinar ou comparar dados.
Exemplos comuns
- “Top 5 produtos por receita.”
- “Valor médio de pedido por mês.”
- “Quais clientes gastam mais ao longo do tempo?”
Por que funciona bem
- Bancos de dados são feitos para esse tipo de trabalho.
- Muito mais confiável do que fazer a IA raciocinar sobre linhas brutas.
- Ainda é mais barato e mais preciso do que busca vetorial para dados estruturados.
Regra prática para iniciantes
- Se um humano usaria uma tabela dinâmica ou fórmulas, use SQL.
1. Filtros Simples de Banco de Dados⌗
O que é
- Você está dizendo ao sistema: traga apenas as linhas que correspondem a estas regras.
- Exemplos de regras: produto = X, data = Y, status = aberto.
Quando usar
- Seus dados estão estruturados em linhas e colunas.
- Você já sabe exatamente quais campos deseja filtrar.
- A pergunta pode ser respondida analisando apenas um pequeno subconjunto de registros.
Exemplos comuns
- “Quantos pedidos tivemos hoje?”
- “Mostre todos os tickets de suporte que ainda estão abertos.”
- “Receita total do produto A nesta semana.”
Por que funciona bem
- Rápido.
- Barato.
- Muito preciso.
- Escala bem para grandes volumes de dados.
Regra prática para iniciantes
- Se um humano usaria filtros em uma planilha, use filtros no n8n.
🛠️ Guia de Configuração⌗
Este guia descreve os quatro métodos discutidos no vídeo do YouTube. O objetivo deste template é mostrar como os system prompts foram estruturados e como os agentes foram configurados.
⚠️ Observação: Esta configuração não inclui todos os conjuntos de dados. É recomendado que você crie os seus próprios usando ferramentas de IA como ChatGPT ou Claude.
🧪 Método 1: Filtros⌗
Use filtros para restringir os dados com base em critérios pré-definidos. Ideal para limpeza inicial de dados e roteamento de informações.
🧾 Método 2: Consulta SQL⌗
Gere consultas SQL dinamicamente a partir de prompts em linguagem natural para interagir com bancos de dados estruturados.
📚 Método 3: Contexto Completo⌗
Forneça aos agentes todo o contexto conversacional ou relacionado à tarefa, permitindo tomadas de decisão mais precisas.
🧠 Método 4: Busca Vetorial⌗
Utilize embeddings vetoriais para busca semântica, permitindo que o sistema recupere os trechos de informação mais relevantes.
🧰 Teste Você Mesmo⌗
Quer experimentar? Use o ChatGPT ou o Claude para gerar seus próprios dados:
- Criar filtros de exemplo ou prompts SQL
- Gerar dados de contexto simulados para agentes
- Testar recuperação baseada em vetores nos seus próprios fluxos do n8n
dublado
Which Type of RAG Agent is Best? (Simple Breakdown)
ap85 - 4 Tipos RAG
1