Compilação detalhada dos 10 níveis de RAG (Retrieval Augmented…

INEMA

youtube.com/watch ↗

Hacks⌗

Cheat Sheets no Context Dump (Nível 0)

Em vez de colar um manual inteiro de 200 páginas, destilar cada página em resumos e colar só o essencial.
Exemplo: transformar 135 páginas em 20 páginas resumidas.

Usar Modelos com Janela Grande

Aproveitar modelos como Gemini 2.5 Flash, GPT-4.1 ou 4.1 Mini que suportam \~1 milhão de tokens.
Isso permite colar centenas de páginas sem embeddings.

Knowledge Distillation

Criar um script (Python ou com LLM) que lê milhares de páginas e gera versões condensadas (reduzir 10.000 páginas para 400–500).
Funciona como um pré-processamento rápido para diminuir custo de tokens.

Prompt Caching (Nível 1)

Mandar o “mega prompt” só uma vez.
As próximas perguntas ficam muito mais baratas, chegando a 70–75% de economia.

Smart Chunks (Nível 2)

Em vez de enviar tudo, usar um LM mais barato para decidir quais seções importar (ex.: só HR se a pergunta for sobre férias).
Economiza 60–80% em tokens.

Contexto Dinâmico (Nível 5)

Mandar não apenas a frase encontrada, mas também 1–3 parágrafos antes/depois.
Garante que passos sequenciais (ex.: manuais de operação) não fiquem incompletos.

Limitar Agentes (Nível 6–9)

Definir número máximo de tentativas, orçamento de tokens e regras de parada para evitar “loops caros”.
Evita custos explosivos em Agentic RAG e Agentic Graph RAG.

Metadados Ricos (Nível 3–7)

Sempre guardar datas, autores, áreas e categorias junto aos embeddings.
Isso permite filtros antes da busca e reduz ruído nas respostas.

Esses hacks aparecem como atalhos para:

Evitar começar com sistemas complexos.
Reduzir custo de tokens.
Manter a precisão sem “overengineering”.

No vídeo “RAG Is Simpler Than You Think (90% Do It Wrong)” o autor explica que RAG (Retrieval Augmented Generation) não é uma técnica única, mas sim um espectro de métodos que vão do mais simples ao mais avançado. Ele mostra que muitas empresas complicam demais e gastam tempo/dinheiro quando poderiam resolver o problema com soluções básicas.

Estrutura da explicação no vídeo⌗

Conceito central

RAG serve para dar contexto aos modelos de IA a partir de documentos.
O objetivo não é usar o método mais sofisticado, mas sim o mais adequado para o caso.
A ideia é começar simples, validar, e só subir de nível quando necessário.

Níveis básicos

Nível 0 (Context Dump): colar todo o conteúdo direto no prompt. Bom para manuais pequenos.
Nível 1 (Prompt Caching): aproveitar cache dos modelos para baratear consultas repetidas.
Nível 2 (Smart Chunks): dividir documentos em partes e enviar só o que é relevante.

Níveis intermediários

Nível 3 (RAG Tradicional): embeddings + banco vetorial, já bastante usado em larga escala.
Nível 4 (Hybrid RAG): mistura de busca semântica com palavra-chave.
Nível 5 (Contextual RAG): traz o trecho encontrado com contexto anterior e posterior.

Níveis avançados

Nível 6 (Agentic RAG): agentes de IA refinam perguntas, avaliam respostas e iteram.
Nível 7 (Multi-index RAG): vários índices especializados (jurídico, técnico, financeiro etc.) conectados.
Nível 8 (Graph RAG): usa grafos de relações entre entidades (clientes, produtos, problemas).
Nível 9 (Agentic Graph RAG): rede de agentes que descobre, valida e mantém relações de forma contínua.

Mensagem final

A maioria dos negócios pode parar nos níveis 0 a 3.
Só empresas com necessidades muito complexas devem pensar em níveis 7 a 9.
O importante é focar no resultado prático, não na complexidade da implementação.

m34 - N8N tem os templates

Agentic Grahp

Graph

Multi Index

Agentic

Contextual

Hibrida

Tradicional

índices especializados (técnico, jurídico, e-mail, CRM etc.) que podem ser consultados em conjunto.

Exemplo: “Por que o sistema fica lento às terças?” Agente consulta índice de logs, agenda de deploys e tickets; cruza achados e explica a causa.

Quando usar: empresas com dados heterogêneos e perguntas que cruzam áreas.

Prós/Contras: qualidade sobe muito por especialização; manutenção mais pesada e necessidade de “roteador” inteligente.

Hack: padronizar metadados entre índices (pessoa, produto, data, sistema) para facilitar joins na resposta.

Nível 8 — Graph RAG⌗

O que é: conhecimento modelado como grafo de entidades e relações; a resposta percorre “hops” entre nós.

Exemplo: supply chain. Pergunta: “Qual engenheiro mais resolveu problemas do cliente X?” Caminho: cliente → produtos → incidentes → engenheiros → contagem.

Quando usar: perguntas multi-salto, dependências complexas, visão 360° de clientes/ativos.

Prós/Contras: descobre padrões e relações profundas; alto custo de modelagem/atualização e risco de relações quebradas.

Hack: começar com subgrafos críticos (clientes top, produtos core) e expandir gradualmente; versionar o grafo.

Nível 9 — Agentic Graph RAG⌗

O que é: rede de agentes que descobre/valida/atualiza relações do grafo de forma contínua, além de percorrê-las para responder.

Exemplo: varejo grande. Agentes descobrem novos vínculos (cliente→produto→amigos), validam, curam ligações antigas e respondem com base no grafo vivo.

Quando usar: operações muito complexas e dinâmicas (Fortune 500, pesquisa em larga escala).

Prós/Contras: auto-manutenção e insights preditivos; alto risco de conflito de agentes, custo e necessidade de governança forte.

Hack: mediação entre agentes, limites de custo/tempo, auditoria de mudanças no grafo e “canário” de segurança para rollback.

Matriz rápida de escolha⌗

• Até \~300 páginas e urgência: Nível 0–1 • 300–3.000 páginas bem organizadas: Nível 2–3 • Termos técnicos/erros específicos: Nível 4 • Passo-a-passo com pré-requisitos: Nível 5 • Usuário vago/consulta difícil: Nível 6 • Muitas fontes e cruzamentos: Nível 7 • Perguntas de relacionamento multi-salto: Nível 8 • Operações vivas e auto-atualização: Nível 9

Aqui vai cada nível explicado, com exemplo prático e quando usar, de forma direta.

Nível 0 — Context Dump⌗

O que é: colar todo (ou quase todo) o conteúdo direto no prompt de um modelo com janela grande.

Exemplo: manual de RH com 150 páginas. Você cria um “resumo-cheat sheet” de 20 páginas e cola no topo do prompt para responder dúvidas. Quando usar: bases pequenas/médias, necessidade de rapidez sem pipeline; protótipos.

Prós/Contras: implementação instantânea e manutenção simples; porém consome tokens, tem limite de contexto e não escala tanto.

Hack: destilar o conteúdo antes (cheat sheet por página/capítulo) para reduzir 60–80% dos tokens.

Nível 1 — Prompt Caching⌗

O que é: mesma lógica do Nível 0, mas explorando cache de prompt do provedor para baratear rodadas subsequentes.

Exemplo: equipe de suporte faz 40 perguntas sobre o mesmo manual em 1 hora; o cache mantém o “bloco” carregado e barateia cada nova pergunta.

Quando usar: sessões de perguntas repetitivas em janela curta (minutos/horas).

Prós/Contras: custo muito menor após a 1ª chamada; depende do tempo/escopo do cache e ainda tem limite de contexto.

Hack: agrupar perguntas por tema e dispará-las dentro da janela de cache.

Nível 2 — Smart Chunks⌗

O que é: dividir documentos em partes e selecionar apenas os trechos relevantes antes de enviar ao modelo.

Exemplo: wiki de 500 páginas rotulada por área (RH, Finanças, TI). Um “roteador” leve detecta o tema da pergunta e só envia os trechos do setor correto.

Quando usar: bases organizadas com pouca sobreposição entre temas. Prós/Contras: cai o custo e o risco de alucinação; pode errar se a pergunta cruzar áreas ou se a taxonomia estiver bagunçada.

Hack: criar sumários por capítulo e tags por entidade (pessoa, sistema, produto) para melhorar o roteamento.

Nível 3 — RAG Tradicional⌗

O que é: embeddings + banco vetorial; busca semântica e “top-K” para montar o contexto da resposta.

Exemplo: 50 mil PDFs de atendimento. Pipeline extrai texto, cria embeddings e armazena; a pergunta retorna K trechos mais próximos para o LLM responder.

Quando usar: grandes volumes, muitas fontes, necessidade de custo baixo por consulta.

Prós/Contras: escala e é barato/rápido por query; exige ingestão bem feita, metadados e tuning de chunking/top-K.

Hack: guardar metadados ricos (tipo, data, autor, área) e filtrar antes da busca vetorial.

Nível 4 — Hybrid RAG⌗

O que é: combinar busca semântica (conceito) com busca por palavra-chave (termo exato).

Exemplo: diagnóstico técnico com código de erro “P0420”. Semântica entende “carro/veículo/ECU”; keyword garante pegar o “P0420” literal.

Quando usar: domínios técnicos, jurídico/médico, logs e manuais com termos exatos.

Prós/Contras: cobre bem conceito + termo literal; maior complexidade e manutenção de dois índices.

Hack: usar palavra-chave só como “prova” (re-rank) após a busca semântica, reduzindo atrito operacional.

Nível 5 — Contextual RAG⌗

O que é: além do trecho encontrado, trazer parágrafos antes/depois para preservar a sequência/condição.

Exemplo: procedimento médico em 5 passos. Em vez de mandar só o passo 4, incluir passos 1–3 e 5 ao redor.

Quando usar: conteúdo com ordem e dependências (SOPs, receitas, contratos, instruções).

Prós/Contras: respostas mais corretas e seguras; aumenta tokens e pode estourar contexto.

Hack: janelas dinâmicas: 1 parágrafo se curto, 2–3 se longo; e truncar listas extensas mantendo pré-requisitos.

Nível 6 — Agentic RAG⌗

O que é: um agente controla a busca, reformula a pergunta, faz múltiplas tentativas e avalia resultados antes de responder.

Exemplo: help desk recebe “o sistema travou, e agora?”. O agente pede detalhes, tenta buscas diferentes, cruza fontes e só então responde.

Quando usar: perguntas vagas, múltiplas fontes e necessidade de julgamento/autocorreção.

Prós/Contras: lida bem com ambiguidade e melhora precisão; pode custar caro e “loopar” sem limites.

Hack: impor limites de passos, orçamento e regras de parada; logar tentativas e reutilizar boas reformulações.

Nível 7 — Multi-index RAG⌗

O que é: vários

Vou explicar cada nível de forma objetiva, mantendo a estrutura clara:

Nível 0 – Context Dump Cola todo o conteúdo direto no prompt. Quando usar: bases pequenas (até algumas centenas de páginas) onde velocidade importa mais que custo.

Nível 1 – Prompt Caching Usa cache do modelo para reaproveitar prompts e reduzir custos. Quando usar: consultas repetitivas a um mesmo documento ou manual, em curtos períodos de tempo.

Nível 2 – Smart Chunks Divide documentos em partes e seleciona apenas os trechos relevantes para responder. Quando usar: bases bem organizadas (ex: políticas de RH, manuais técnicos) para reduzir custo e alucinações.

Nível 3 – RAG Tradicional Usa embeddings + banco vetorial para buscar informações. Quando usar: grandes volumes de documentos (milhares/milhões de páginas) onde é preciso escalar a busca.

Nível 4 – Hybrid RAG Combina busca semântica (conceito) com busca por palavra-chave (termos exatos). Quando usar: conteúdos técnicos, jurídicos ou médicos, que precisam de precisão e contexto ao mesmo tempo.

Nível 5 – Contextual RAG Recupera o trecho encontrado junto com o contexto antes e depois. Quando usar: manuais de instruções, receitas, contratos ou processos com etapas sequenciais.

Nível 6 – Agentic RAG Agentes de IA controlam a busca, refinam perguntas e avaliam respostas. Quando usar: perguntas vagas ou mal formuladas, suporte avançado e pesquisas complexas.

Nível 7 – Multi-index RAG Cria múltiplos índices especializados (financeiro, jurídico, técnico) conectados entre si. Quando usar: empresas grandes com dados de vários tipos e necessidade de cruzar informações.

Nível 8 – Graph RAG Constrói mapas de relacionamento entre entidades (clientes, produtos, problemas, soluções). Quando usar: supply chain, análise organizacional, pesquisa científica ou visão 360° de clientes.

Nível 9 – Agentic Graph RAG Rede de agentes que descobrem, validam e mantêm relações em tempo real. Quando usar: corporações muito grandes, projetos científicos complexos e operações críticas que exigem automação contínua.

Aqui está a lista objetiva dos níveis de RAG do vídeo:

Nível 0 – Context Dump: colar todo o conteúdo no prompt. Nível 1 – Prompt Caching: aproveitar cache do modelo para reduzir custos. Nível 2 – Smart Chunks: seleção de trechos relevantes para consulta. Nível 3 – RAG Tradicional: embeddings + banco vetorial. Nível 4 – Hybrid RAG: combinação de busca semântica e palavra-chave. Nível 5 – Contextual RAG: inclui o trecho encontrado e o contexto ao redor. Nível 6 – Agentic RAG: agentes controlam e refinam a busca. Nível 7 – Multi-index RAG: vários índices especializados conectados. Nível 8 – Graph RAG: mapa de relacionamentos entre entidades. Nível 9 – Agentic Graph RAG: rede de agentes que descobrem, validam e mantêm relações.

Propósito O vídeo mostra que o RAG (Retrieval Augmented Generation) não é uma técnica única, mas um espectro de métodos que variam do simples ao muito avançado. O objetivo é ensinar como escolher o nível certo de RAG de acordo com a necessidade, em vez de começar direto com soluções complexas que podem ser exageradas para a maioria dos casos.

Principais tópicos

Conceito de RAG

É um espectro, não uma técnica única.
Muitas empresas usam métodos sofisticados demais para casos simples.
A evolução deve ser gradual: começar pelo simples e só avançar quando houver real necessidade.

Níveis básicos de RAG

Context Dump (nível 0): colar todo o conteúdo no prompt. Rápido de implementar, bom para bases pequenas, mas caro e limitado em escala.
Prompt Caching (nível 1): aproveita cache do modelo para baratear custos em interações repetidas.
Smart Chunks (nível 2): separa e seleciona trechos relevantes. Reduz custos e alucinações, mas depende de boa organização dos documentos.

Níveis intermediários

RAG tradicional (nível 3): usa embeddings e banco vetorial. Escala para milhões de páginas, mas exige estruturação correta.
Hybrid RAG (nível 4): combina busca semântica e por palavra-chave, equilibrando precisão conceitual e técnica.
Contextual RAG (nível 5): inclui o trecho encontrado e o contexto antes/depois, útil para manuais e instruções passo a passo.

Níveis avançados

Agentic RAG (nível 6): agentes de IA controlam a busca, refinam perguntas e avaliam respostas. Bom para questões vagas, mas caro.
Multi-index RAG (nível 7): usa múltiplos índices especializados (jurídico, técnico, financeiro) e conecta resultados.
Graph RAG (nível 8): cria mapas de relacionamento entre entidades (clientes, produtos, problemas, soluções). Excelente para supply chain e análises complexas.
Agentic Graph RAG (nível 9): rede auto-organizada de agentes que descobrem, validam e mantêm relações. Muito poderoso, mas difícil, caro e indicado apenas para grandes empresas e projetos científicos.

Conclusão

A escolha do método deve ser prática e guiada pela necessidade real.
Para 90% dos casos, os níveis simples e intermediários já são suficientes.
O segredo é começar pelo mais fácil, obter resultados, e só subir de nível quando for realmente necessário.

RAG é mais simples do que você imagina (90% fazem errado)

Para este caso, acho que pode ajudar muito só esclarecer bem a ideia de RAG.

Eu disponibilizei todos os rascunhos de fluxos de trabalho de RAG já prontos só para vocês, caso queiram testar — eles não estão prontos para produção, mas oferecem um modelo mental sólido de como você pode abordar os diferentes métodos. Avante 🦾

RAG é Simples - Niveis