Aula sobre os 4 tipos de RAG para agentes de IA, explicando quando…

INEMA

🧠 HACKS DE DECISÃO (antes de codar)⌗

1. Não comece pelo vector DB⌗

Vector search é a última opção, não a primeira.

Hack mental

Pergunta simples → Filtro
Pergunta analítica → SQL
Pergunta explicativa → Contexto completo
Busca pontual → Vetores

2. Simule um humano primeiro⌗

Antes de escolher RAG, pergunte:

“Se eu fosse humano, como responderia isso?”

Ctrl+F → Vetores
Filtro no Excel → Filters
Tabela dinâmica → SQL
Ler tudo → Full context

⚡ HACKS DE PERFORMANCE & CUSTO⌗

3. Menos contexto = menos alucinação⌗

Cada token extra:

aumenta custo
aumenta chance de erro

Hack

Traga só os dados necessários para o LLM, nunca “tudo”.

4. Filtro > SQL > Vetor (em custo)⌗

Ordem de eficiência:

Filtros
SQL
Vetores
Full context

Use o mais simples que resolva.

5. Faça o banco pensar, não o LLM⌗

Nunca peça para o LLM:

calcular médias
somar valores
ranquear produtos

Hack

Empurre toda matemática para SQL.

🧱 HACKS DE CONFIABILIDADE⌗

6. Não confie em “semântica” para dados estruturados⌗

Vetores são ruins para:

vendas
métricas
datas
números

Hack

Estruturado → regras explícitas, não embeddings.

7. Enumere valores válidos no system prompt⌗

Filtros falham se o LLM errar a string.

Hack

Produtos válidos: - Bluetooth speaker - Wireless headphones - Phone case

Sem isso → filtro quebra silenciosamente.

8. Padronize formatos (datas, IDs, enums)⌗

LLM ≠ mágico.

Hack

Sempre force:
formato de data
nomes de coluna
valores exatos

📚 HACKS DE CONTEXTO⌗

9. Resumo ≠ Busca⌗

Se a pergunta for:

“Resuma tudo”
“Explique o processo”
“Linha do tempo”

👉 Nunca use chunk-based retrieval sozinho

10. Use Full Context para “ordem importa”⌗

Vetores:

não entendem sequência
não entendem começo/meio/fim

Hack

Ordem importa? Leia tudo.

11. Full context dinâmico > hardcoded⌗

Não “cole” documentos no prompt fixo.

Hack

Injete documentos como variáveis
Mantém flexível
Evita refatoração futura

🧩 HACKS AVANÇADOS (nível produção)⌗

12. Pipeline híbrido > RAG único⌗

Exemplo real:

Filtro → reduz dataset
SQL → agrega dados
Vetor → busca contexto textual
LLM → responde

13. Use vetores só para decidir o que ler⌗

Não para responder tudo.

Hack

Vetor decide o documento
LLM lê o documento inteiro selecionado

14. Limite chunks por pergunta⌗

Mais chunks ≠ melhor resposta.

Hack

Comece com 4–6
Aumente só se necessário

15. Especialize agentes⌗

Um agente ≠ tudo.

Hack

Agente de métricas (SQL)
Agente de suporte (vetor)
Agente de onboarding (full context)

🧪 HACK FINAL (o mais importante)⌗

16. Context engineering > prompt engineering⌗

Prompt bonito não salva:

dado ruim
contexto errado
pipeline mal pensado

Regra de ouro

A IA só é tão boa quanto o contexto que você entrega.

Ideia central⌗

Não existe “um melhor RAG universal”. O tipo certo de RAG depende do tipo de pergunta, do formato dos dados e do contexto necessário para responder corretamente.

Antes de escolher tecnologia, é essencial:

Começar pelo objetivo final
Pensar que perguntas o agente vai receber
Definir que dados ele precisa olhar para responder bem

Problema do “RAG automático com vetor”⌗

Muitas pessoas vão direto para vector database
Isso gera problemas de perda de contexto, principalmente:
Resumos completos
Dados tabulares (vendas, métricas, médias, rankings)
Chunk-based retrieval:
É rápido e barato
Mas quebra o contexto global
Pode gerar respostas incorretas para perguntas analíticas

Os 4 tipos de RAG apresentados⌗

1. RAG com Filtros (Filter-based retrieval)⌗

Como funciona

Aplica filtros explícitos (ex: produto = X, data = Y)
Retorna apenas as linhas relevantes

Quando usar

Dados estruturados (linhas e colunas)
Perguntas simples e diretas
Pequeno subconjunto de dados resolve a pergunta

Vantagens

Muito rápido
Barato
Alta precisão
Menos tokens → menos risco de alucinação

Regra prática

Se um humano usaria filtros no Excel, use filtros no RAG.

2. RAG com SQL (SQL Agent)⌗

Como funciona

O agente gera queries SQL
O banco faz cálculos, agrupamentos e ordenações

Quando usar

Totais, médias, rankings, tendências
Perguntas que envolvem muitas linhas
Comparações e agregações

Vantagens

Muito mais confiável para dados tabulares
Mais preciso que chunk-based retrieval
Mais barato e correto que vector search para dados estruturados

Regra prática

Se um humano usaria tabela dinâmica ou fórmulas, use SQL.

3. RAG de Contexto Completo (Full Context)⌗

Como funciona

O agente lê o documento inteiro
Sem chunking nem busca vetorial

Quando usar

Resumos completos
Linhas do tempo
Explicações passo a passo
Quando a ordem das informações importa
Base de dados pequena que cabe no contexto do modelo

Vantagens

Máxima precisão
Preserva o contexto completo

Desvantagens

Mais caro
Mais tokens
Pode bater limite de contexto (menos problemático hoje)

Regra prática

Se um humano leria o documento inteiro antes de responder, o agente também deve ler.

4. RAG com Vector Database (Chunk-based retrieval)⌗

Como funciona

Documentos são quebrados em chunks
Busca semântica retorna apenas partes relevantes

Quando usar

Bases grandes
Perguntas pontuais (FAQ, busca de trechos específicos)
Quando custo e velocidade são prioridade

Vantagens

Muito escalável
Mais barato que full context em grandes volumes
Respostas rápidas

Limitações

Perda de ordem cronológica
Pode errar resumos globais
Ruim para cálculos e análises completas

Comparação rápida⌗

Tipo de RAG	Melhor para	Evitar quando
Filtros	Perguntas simples em dados tabulares	Cálculos complexos
SQL	Métricas, rankings, análises	Texto longo
Contexto completo	Resumos, timelines	Bases grandes
Vetores	Busca semântica	Análises globais

Conceito-chave final: Context Engineering⌗

O desempenho do agente depende de:

Começar pelo objetivo final
Projetar bem o pipeline de dados
Garantir qualidade dos dados
Otimizar uso de contexto
Especializar o agente (não um RAG genérico)

4. Recuperação Baseada em Chunks (Busca Vetorial)⌗

O que é

Os documentos são divididos em chunks (pedaços).
O agente recupera apenas as partes mais relevantes.
Normalmente utiliza um banco de dados vetorial.

Quando usar

Você tem uma base de conhecimento grande.
Os usuários fazem perguntas abertas.
Não é necessário manter a ordem completa do documento.

Exemplos comuns

“O que diz nossa política de reembolso?”
“Como funciona a autenticação?”
“Quais ferramentas se integram à nossa plataforma?”

Por que funciona bem

Escala bem para grandes volumes de dados.
Mais rápido e mais barato do que usar contexto completo.
Excelente para perguntas e respostas semânticas.

Onde iniciantes costumam errar

Resumos ruins.
Linhas do tempo incorretas.
Respostas incompletas quando o contexto completo é necessário.

Regra prática para iniciantes

Se os usuários fazem perguntas no estilo busca, use recuperação baseada em chunks.

3. Recuperação de Contexto Completo⌗

O que é

O agente lê o documento inteiro ou o conjunto completo de documentos.
Nada é dividido em chunks.
A ordem e a estrutura do conteúdo são preservadas.

Quando usar

Você precisa de resumos, linhas do tempo ou explicações passo a passo.
A ordem das informações é importante.
O conjunto de dados é pequeno o suficiente para caber na janela de contexto do modelo.

Exemplos comuns

“Resuma este PDF do começo ao fim.”
“Explique as ideias principais deste documento de treinamento.”
“Quais são os passos descritos neste guia?”

Por que funciona bem

Maior nível de precisão para conteúdos longos.
Nenhum contexto é perdido.
Não mistura informações de fontes diferentes.

Regra prática para iniciantes

Se um humano leria o documento inteiro, use contexto completo.

2. Consultas SQL⌗

O que é

Você está fazendo perguntas mais complexas sobre dados estruturados.
O agente gera uma consulta que realiza agrupamentos, ordenações ou cálculos.

Quando usar

Você precisa de totais, médias, rankings ou tendências.
A pergunta envolve muitas linhas ao mesmo tempo.
É necessário combinar ou comparar dados.

Exemplos comuns

“Top 5 produtos por receita.”
“Valor médio de pedido por mês.”
“Quais clientes gastam mais ao longo do tempo?”

Por que funciona bem

Bancos de dados são feitos para esse tipo de trabalho.
Muito mais confiável do que fazer a IA raciocinar sobre linhas brutas.
Ainda é mais barato e mais preciso do que busca vetorial para dados estruturados.

Regra prática para iniciantes

Se um humano usaria uma tabela dinâmica ou fórmulas, use SQL.

1. Filtros Simples de Banco de Dados⌗

O que é

Você está dizendo ao sistema: traga apenas as linhas que correspondem a estas regras.
Exemplos de regras: produto = X, data = Y, status = aberto.

Quando usar

Seus dados estão estruturados em linhas e colunas.
Você já sabe exatamente quais campos deseja filtrar.
A pergunta pode ser respondida analisando apenas um pequeno subconjunto de registros.

Exemplos comuns

“Quantos pedidos tivemos hoje?”
“Mostre todos os tickets de suporte que ainda estão abertos.”
“Receita total do produto A nesta semana.”

Por que funciona bem

Rápido.
Barato.
Muito preciso.
Escala bem para grandes volumes de dados.

Regra prática para iniciantes

Se um humano usaria filtros em uma planilha, use filtros no n8n.

🛠️ Guia de Configuração⌗

Este guia descreve os quatro métodos discutidos no vídeo do YouTube. O objetivo deste template é mostrar como os system prompts foram estruturados e como os agentes foram configurados.

⚠️ Observação: Esta configuração não inclui todos os conjuntos de dados. É recomendado que você crie os seus próprios usando ferramentas de IA como ChatGPT ou Claude.

🧪 Método 1: Filtros⌗

Use filtros para restringir os dados com base em critérios pré-definidos. Ideal para limpeza inicial de dados e roteamento de informações.

🧾 Método 2: Consulta SQL⌗

Gere consultas SQL dinamicamente a partir de prompts em linguagem natural para interagir com bancos de dados estruturados.

📚 Método 3: Contexto Completo⌗

Forneça aos agentes todo o contexto conversacional ou relacionado à tarefa, permitindo tomadas de decisão mais precisas.

🧠 Método 4: Busca Vetorial⌗

Utilize embeddings vetoriais para busca semântica, permitindo que o sistema recupere os trechos de informação mais relevantes.

🧰 Teste Você Mesmo⌗

Quer experimentar? Use o ChatGPT ou o Claude para gerar seus próprios dados:

Criar filtros de exemplo ou prompts SQL
Gerar dados de contexto simulados para agentes
Testar recuperação baseada em vetores nos seus próprios fluxos do n8n

dublado

Which Type of RAG Agent is Best? (Simple Breakdown)

ap85 - 4 Tipos RAG

chatgpt.com ↗

Aula sobre os 4 tipos de RAG para agentes de IA, explicando quando…

🧠 HACKS DE DECISÃO (antes de codar)⌗

1. Não comece pelo vector DB⌗

2. Simule um humano primeiro⌗

⚡ HACKS DE PERFORMANCE & CUSTO⌗

3. Menos contexto = menos alucinação⌗

4. Filtro > SQL > Vetor (em custo)⌗

5. Faça o banco pensar, não o LLM⌗

🧱 HACKS DE CONFIABILIDADE⌗

6. Não confie em “semântica” para dados estruturados⌗

7. Enumere valores válidos no system prompt⌗

8. Padronize formatos (datas, IDs, enums)⌗

📚 HACKS DE CONTEXTO⌗

9. Resumo ≠ Busca⌗

10. Use Full Context para “ordem importa”⌗

11. Full context dinâmico > hardcoded⌗

🧩 HACKS AVANÇADOS (nível produção)⌗

12. Pipeline híbrido > RAG único⌗

13. Use vetores só para decidir o que ler⌗

14. Limite chunks por pergunta⌗

15. Especialize agentes⌗

🧪 HACK FINAL (o mais importante)⌗

16. Context engineering > prompt engineering⌗

Ideia central⌗

Problema do “RAG automático com vetor”⌗

Os 4 tipos de RAG apresentados⌗

1. RAG com Filtros (Filter-based retrieval)⌗

2. RAG com SQL (SQL Agent)⌗

3. RAG de Contexto Completo (Full Context)⌗

4. RAG com Vector Database (Chunk-based retrieval)⌗

Comparação rápida⌗

Conceito-chave final: Context Engineering⌗

4. Recuperação Baseada em Chunks (Busca Vetorial)⌗

3. Recuperação de Contexto Completo⌗

2. Consultas SQL⌗

1. Filtros Simples de Banco de Dados⌗

🛠️ Guia de Configuração⌗

🧪 Método 1: Filtros⌗

🧾 Método 2: Consulta SQL⌗

📚 Método 3: Contexto Completo⌗

🧠 Método 4: Busca Vetorial⌗

🧰 Teste Você Mesmo⌗

Recursos