Compilação detalhada dos 10 níveis de RAG (Retrieval Augmented…
INEMA
Hacks⌗
- Cheat Sheets no Context Dump (Nível 0)
- Em vez de colar um manual inteiro de 200 páginas, destilar cada página em resumos e colar só o essencial.
- Exemplo: transformar 135 páginas em 20 páginas resumidas.
- Usar Modelos com Janela Grande
- Aproveitar modelos como Gemini 2.5 Flash, GPT-4.1 ou 4.1 Mini que suportam \~1 milhão de tokens.
- Isso permite colar centenas de páginas sem embeddings.
- Knowledge Distillation
- Criar um script (Python ou com LLM) que lê milhares de páginas e gera versões condensadas (reduzir 10.000 páginas para 400–500).
- Funciona como um pré-processamento rápido para diminuir custo de tokens.
- Prompt Caching (Nível 1)
- Mandar o “mega prompt” só uma vez.
- As próximas perguntas ficam muito mais baratas, chegando a 70–75% de economia.
- Smart Chunks (Nível 2)
- Em vez de enviar tudo, usar um LM mais barato para decidir quais seções importar (ex.: só HR se a pergunta for sobre férias).
- Economiza 60–80% em tokens.
- Contexto Dinâmico (Nível 5)
- Mandar não apenas a frase encontrada, mas também 1–3 parágrafos antes/depois.
- Garante que passos sequenciais (ex.: manuais de operação) não fiquem incompletos.
- Limitar Agentes (Nível 6–9)
- Definir número máximo de tentativas, orçamento de tokens e regras de parada para evitar “loops caros”.
- Evita custos explosivos em Agentic RAG e Agentic Graph RAG.
- Metadados Ricos (Nível 3–7)
- Sempre guardar datas, autores, áreas e categorias junto aos embeddings.
- Isso permite filtros antes da busca e reduz ruído nas respostas.
Esses hacks aparecem como atalhos para:
- Evitar começar com sistemas complexos.
- Reduzir custo de tokens.
- Manter a precisão sem “overengineering”.
No vídeo “RAG Is Simpler Than You Think (90% Do It Wrong)” o autor explica que RAG (Retrieval Augmented Generation) não é uma técnica única, mas sim um espectro de métodos que vão do mais simples ao mais avançado. Ele mostra que muitas empresas complicam demais e gastam tempo/dinheiro quando poderiam resolver o problema com soluções básicas.
Estrutura da explicação no vídeo⌗
- Conceito central
- RAG serve para dar contexto aos modelos de IA a partir de documentos.
- O objetivo não é usar o método mais sofisticado, mas sim o mais adequado para o caso.
- A ideia é começar simples, validar, e só subir de nível quando necessário.
- Níveis básicos
- Nível 0 (Context Dump): colar todo o conteúdo direto no prompt. Bom para manuais pequenos.
- Nível 1 (Prompt Caching): aproveitar cache dos modelos para baratear consultas repetidas.
- Nível 2 (Smart Chunks): dividir documentos em partes e enviar só o que é relevante.
- Níveis intermediários
- Nível 3 (RAG Tradicional): embeddings + banco vetorial, já bastante usado em larga escala.
- Nível 4 (Hybrid RAG): mistura de busca semântica com palavra-chave.
- Nível 5 (Contextual RAG): traz o trecho encontrado com contexto anterior e posterior.
- Níveis avançados
- Nível 6 (Agentic RAG): agentes de IA refinam perguntas, avaliam respostas e iteram.
- Nível 7 (Multi-index RAG): vários índices especializados (jurídico, técnico, financeiro etc.) conectados.
- Nível 8 (Graph RAG): usa grafos de relações entre entidades (clientes, produtos, problemas).
- Nível 9 (Agentic Graph RAG): rede de agentes que descobre, valida e mantém relações de forma contínua.
- Mensagem final
- A maioria dos negócios pode parar nos níveis 0 a 3.
- Só empresas com necessidades muito complexas devem pensar em níveis 7 a 9.
- O importante é focar no resultado prático, não na complexidade da implementação.
m34 - N8N tem os templates
Agentic Grahp
Graph
Multi Index
Agentic
Contextual
Hibrida
Tradicional
índices especializados (técnico, jurídico, e-mail, CRM etc.) que podem ser consultados em conjunto.
Exemplo: “Por que o sistema fica lento às terças?” Agente consulta índice de logs, agenda de deploys e tickets; cruza achados e explica a causa.
Quando usar: empresas com dados heterogêneos e perguntas que cruzam áreas.
Prós/Contras: qualidade sobe muito por especialização; manutenção mais pesada e necessidade de “roteador” inteligente.
Hack: padronizar metadados entre índices (pessoa, produto, data, sistema) para facilitar joins na resposta.
Nível 8 — Graph RAG⌗
O que é: conhecimento modelado como grafo de entidades e relações; a resposta percorre “hops” entre nós.
Exemplo: supply chain. Pergunta: “Qual engenheiro mais resolveu problemas do cliente X?” Caminho: cliente → produtos → incidentes → engenheiros → contagem.
Quando usar: perguntas multi-salto, dependências complexas, visão 360° de clientes/ativos.
Prós/Contras: descobre padrões e relações profundas; alto custo de modelagem/atualização e risco de relações quebradas.
Hack: começar com subgrafos críticos (clientes top, produtos core) e expandir gradualmente; versionar o grafo.
Nível 9 — Agentic Graph RAG⌗
O que é: rede de agentes que descobre/valida/atualiza relações do grafo de forma contínua, além de percorrê-las para responder.
Exemplo: varejo grande. Agentes descobrem novos vínculos (cliente→produto→amigos), validam, curam ligações antigas e respondem com base no grafo vivo.
Quando usar: operações muito complexas e dinâmicas (Fortune 500, pesquisa em larga escala).
Prós/Contras: auto-manutenção e insights preditivos; alto risco de conflito de agentes, custo e necessidade de governança forte.
Hack: mediação entre agentes, limites de custo/tempo, auditoria de mudanças no grafo e “canário” de segurança para rollback.
Matriz rápida de escolha⌗
• Até \~300 páginas e urgência: Nível 0–1 • 300–3.000 páginas bem organizadas: Nível 2–3 • Termos técnicos/erros específicos: Nível 4 • Passo-a-passo com pré-requisitos: Nível 5 • Usuário vago/consulta difícil: Nível 6 • Muitas fontes e cruzamentos: Nível 7 • Perguntas de relacionamento multi-salto: Nível 8 • Operações vivas e auto-atualização: Nível 9
Aqui vai cada nível explicado, com exemplo prático e quando usar, de forma direta.
Nível 0 — Context Dump⌗
O que é: colar todo (ou quase todo) o conteúdo direto no prompt de um modelo com janela grande.
Exemplo: manual de RH com 150 páginas. Você cria um “resumo-cheat sheet” de 20 páginas e cola no topo do prompt para responder dúvidas. Quando usar: bases pequenas/médias, necessidade de rapidez sem pipeline; protótipos.
Prós/Contras: implementação instantânea e manutenção simples; porém consome tokens, tem limite de contexto e não escala tanto.
Hack: destilar o conteúdo antes (cheat sheet por página/capítulo) para reduzir 60–80% dos tokens.
Nível 1 — Prompt Caching⌗
O que é: mesma lógica do Nível 0, mas explorando cache de prompt do provedor para baratear rodadas subsequentes.
Exemplo: equipe de suporte faz 40 perguntas sobre o mesmo manual em 1 hora; o cache mantém o “bloco” carregado e barateia cada nova pergunta.
Quando usar: sessões de perguntas repetitivas em janela curta (minutos/horas).
Prós/Contras: custo muito menor após a 1ª chamada; depende do tempo/escopo do cache e ainda tem limite de contexto.
Hack: agrupar perguntas por tema e dispará-las dentro da janela de cache.
Nível 2 — Smart Chunks⌗
O que é: dividir documentos em partes e selecionar apenas os trechos relevantes antes de enviar ao modelo.
Exemplo: wiki de 500 páginas rotulada por área (RH, Finanças, TI). Um “roteador” leve detecta o tema da pergunta e só envia os trechos do setor correto.
Quando usar: bases organizadas com pouca sobreposição entre temas. Prós/Contras: cai o custo e o risco de alucinação; pode errar se a pergunta cruzar áreas ou se a taxonomia estiver bagunçada.
Hack: criar sumários por capítulo e tags por entidade (pessoa, sistema, produto) para melhorar o roteamento.
Nível 3 — RAG Tradicional⌗
O que é: embeddings + banco vetorial; busca semântica e “top-K” para montar o contexto da resposta.
Exemplo: 50 mil PDFs de atendimento. Pipeline extrai texto, cria embeddings e armazena; a pergunta retorna K trechos mais próximos para o LLM responder.
Quando usar: grandes volumes, muitas fontes, necessidade de custo baixo por consulta.
Prós/Contras: escala e é barato/rápido por query; exige ingestão bem feita, metadados e tuning de chunking/top-K.
Hack: guardar metadados ricos (tipo, data, autor, área) e filtrar antes da busca vetorial.
Nível 4 — Hybrid RAG⌗
O que é: combinar busca semântica (conceito) com busca por palavra-chave (termo exato).
Exemplo: diagnóstico técnico com código de erro “P0420”. Semântica entende “carro/veículo/ECU”; keyword garante pegar o “P0420” literal.
Quando usar: domínios técnicos, jurídico/médico, logs e manuais com termos exatos.
Prós/Contras: cobre bem conceito + termo literal; maior complexidade e manutenção de dois índices.
Hack: usar palavra-chave só como “prova” (re-rank) após a busca semântica, reduzindo atrito operacional.
Nível 5 — Contextual RAG⌗
O que é: além do trecho encontrado, trazer parágrafos antes/depois para preservar a sequência/condição.
Exemplo: procedimento médico em 5 passos. Em vez de mandar só o passo 4, incluir passos 1–3 e 5 ao redor.
Quando usar: conteúdo com ordem e dependências (SOPs, receitas, contratos, instruções).
Prós/Contras: respostas mais corretas e seguras; aumenta tokens e pode estourar contexto.
Hack: janelas dinâmicas: 1 parágrafo se curto, 2–3 se longo; e truncar listas extensas mantendo pré-requisitos.
Nível 6 — Agentic RAG⌗
O que é: um agente controla a busca, reformula a pergunta, faz múltiplas tentativas e avalia resultados antes de responder.
Exemplo: help desk recebe “o sistema travou, e agora?”. O agente pede detalhes, tenta buscas diferentes, cruza fontes e só então responde.
Quando usar: perguntas vagas, múltiplas fontes e necessidade de julgamento/autocorreção.
Prós/Contras: lida bem com ambiguidade e melhora precisão; pode custar caro e “loopar” sem limites.
Hack: impor limites de passos, orçamento e regras de parada; logar tentativas e reutilizar boas reformulações.
Nível 7 — Multi-index RAG⌗
O que é: vários
Vou explicar cada nível de forma objetiva, mantendo a estrutura clara:
Nível 0 – Context Dump Cola todo o conteúdo direto no prompt. Quando usar: bases pequenas (até algumas centenas de páginas) onde velocidade importa mais que custo.
Nível 1 – Prompt Caching Usa cache do modelo para reaproveitar prompts e reduzir custos. Quando usar: consultas repetitivas a um mesmo documento ou manual, em curtos períodos de tempo.
Nível 2 – Smart Chunks Divide documentos em partes e seleciona apenas os trechos relevantes para responder. Quando usar: bases bem organizadas (ex: políticas de RH, manuais técnicos) para reduzir custo e alucinações.
Nível 3 – RAG Tradicional Usa embeddings + banco vetorial para buscar informações. Quando usar: grandes volumes de documentos (milhares/milhões de páginas) onde é preciso escalar a busca.
Nível 4 – Hybrid RAG Combina busca semântica (conceito) com busca por palavra-chave (termos exatos). Quando usar: conteúdos técnicos, jurídicos ou médicos, que precisam de precisão e contexto ao mesmo tempo.
Nível 5 – Contextual RAG Recupera o trecho encontrado junto com o contexto antes e depois. Quando usar: manuais de instruções, receitas, contratos ou processos com etapas sequenciais.
Nível 6 – Agentic RAG Agentes de IA controlam a busca, refinam perguntas e avaliam respostas. Quando usar: perguntas vagas ou mal formuladas, suporte avançado e pesquisas complexas.
Nível 7 – Multi-index RAG Cria múltiplos índices especializados (financeiro, jurídico, técnico) conectados entre si. Quando usar: empresas grandes com dados de vários tipos e necessidade de cruzar informações.
Nível 8 – Graph RAG Constrói mapas de relacionamento entre entidades (clientes, produtos, problemas, soluções). Quando usar: supply chain, análise organizacional, pesquisa científica ou visão 360° de clientes.
Nível 9 – Agentic Graph RAG Rede de agentes que descobrem, validam e mantêm relações em tempo real. Quando usar: corporações muito grandes, projetos científicos complexos e operações críticas que exigem automação contínua.
Aqui está a lista objetiva dos níveis de RAG do vídeo:
Nível 0 – Context Dump: colar todo o conteúdo no prompt. Nível 1 – Prompt Caching: aproveitar cache do modelo para reduzir custos. Nível 2 – Smart Chunks: seleção de trechos relevantes para consulta. Nível 3 – RAG Tradicional: embeddings + banco vetorial. Nível 4 – Hybrid RAG: combinação de busca semântica e palavra-chave. Nível 5 – Contextual RAG: inclui o trecho encontrado e o contexto ao redor. Nível 6 – Agentic RAG: agentes controlam e refinam a busca. Nível 7 – Multi-index RAG: vários índices especializados conectados. Nível 8 – Graph RAG: mapa de relacionamentos entre entidades. Nível 9 – Agentic Graph RAG: rede de agentes que descobrem, validam e mantêm relações.
Propósito O vídeo mostra que o RAG (Retrieval Augmented Generation) não é uma técnica única, mas um espectro de métodos que variam do simples ao muito avançado. O objetivo é ensinar como escolher o nível certo de RAG de acordo com a necessidade, em vez de começar direto com soluções complexas que podem ser exageradas para a maioria dos casos.
Principais tópicos
- Conceito de RAG
- É um espectro, não uma técnica única.
- Muitas empresas usam métodos sofisticados demais para casos simples.
- A evolução deve ser gradual: começar pelo simples e só avançar quando houver real necessidade.
- Níveis básicos de RAG
- Context Dump (nível 0): colar todo o conteúdo no prompt. Rápido de implementar, bom para bases pequenas, mas caro e limitado em escala.
- Prompt Caching (nível 1): aproveita cache do modelo para baratear custos em interações repetidas.
- Smart Chunks (nível 2): separa e seleciona trechos relevantes. Reduz custos e alucinações, mas depende de boa organização dos documentos.
- Níveis intermediários
- RAG tradicional (nível 3): usa embeddings e banco vetorial. Escala para milhões de páginas, mas exige estruturação correta.
- Hybrid RAG (nível 4): combina busca semântica e por palavra-chave, equilibrando precisão conceitual e técnica.
- Contextual RAG (nível 5): inclui o trecho encontrado e o contexto antes/depois, útil para manuais e instruções passo a passo.
- Níveis avançados
- Agentic RAG (nível 6): agentes de IA controlam a busca, refinam perguntas e avaliam respostas. Bom para questões vagas, mas caro.
- Multi-index RAG (nível 7): usa múltiplos índices especializados (jurídico, técnico, financeiro) e conecta resultados.
- Graph RAG (nível 8): cria mapas de relacionamento entre entidades (clientes, produtos, problemas, soluções). Excelente para supply chain e análises complexas.
- Agentic Graph RAG (nível 9): rede auto-organizada de agentes que descobrem, validam e mantêm relações. Muito poderoso, mas difícil, caro e indicado apenas para grandes empresas e projetos científicos.
- Conclusão
- A escolha do método deve ser prática e guiada pela necessidade real.
- Para 90% dos casos, os níveis simples e intermediários já são suficientes.
- O segredo é começar pelo mais fácil, obter resultados, e só subir de nível quando for realmente necessário.
RAG é mais simples do que você imagina (90% fazem errado)
Para este caso, acho que pode ajudar muito só esclarecer bem a ideia de RAG.
Eu disponibilizei todos os rascunhos de fluxos de trabalho de RAG já prontos só para vocês, caso queiram testar — eles não estão prontos para produção, mas oferecem um modelo mental sólido de como você pode abordar os diferentes métodos. Avante 🦾
RAG é Simples - Niveis
1