Compilação educacional sobre os 10 níveis de RAG (Retrieval-Augmented…
INEMA
(multi-hop), análise de relacionamentos. Benefício: Permite visão 360° de clientes, produtos ou operações. Limitação: Muito trabalho de modelagem e risco de erros em cascata.
Nível 9 — Agentic Graph RAG⌗
O que é: Rede de agentes que descobre, valida e mantém relações em tempo real. Exemplo: Varejo grande → agentes identificam novos clientes, vínculos de compra, relacionamentos sociais, atualizam o grafo e mantêm-no vivo. Quando usar: Grandes corporações (Fortune 500), projetos científicos ou operações críticas. Benefício: Autoatualização, insights preditivos, visão completa do sistema. Limitação: Muito caro, difícil de manter, risco de conflitos entre agentes.
Níveis de RAG — Explicação com Exemplos⌗
Nível 0 — Context Dump⌗
O que é: Colar todo o conteúdo diretamente no prompt de um modelo com janela grande. Exemplo: Manual de RH com 200 páginas → colado inteiro ou em versão resumida no prompt de um GPT-4.1 ou Gemini 2.5 Flash. Quando usar: Bases pequenas/médias, até algumas centenas de páginas. Benefício: Implementação imediata, sem embeddings ou banco vetorial. Limitação: Consome tokens demais, tem limite de contexto (\~700 páginas) e não escala.
Nível 1 — Prompt Caching⌗
O que é: Reaproveitar o mega prompt através de cache oferecido por alguns modelos. Exemplo: Suporte interno faz várias perguntas seguidas sobre a política de férias; o cache mantém o manual carregado, cada nova pergunta custa menos. Quando usar: Sessões de perguntas repetitivas em curto prazo (minutos/horas). Benefício: Redução de até 70% nos custos após a primeira consulta. Limitação: Funciona apenas enquanto o cache do provedor estiver ativo.
Nível 2 — Smart Chunks⌗
O que é: Quebrar documentos em partes e enviar só as relevantes. Exemplo: Wiki corporativa de 500 páginas → se a pergunta é sobre férias, só os capítulos de RH são enviados, ignorando finanças e TI. Quando usar: Bases bem organizadas com pouca sobreposição de temas. Benefício: Menor custo, menos ruído, respostas mais rápidas. Limitação: Pode errar se a resposta exigir conteúdo de mais de uma área.
Nível 3 — RAG Tradicional⌗
O que é: Usar embeddings + banco vetorial para buscar trechos relevantes. Exemplo: 50 mil PDFs de atendimento → convertidos em texto, transformados em embeddings e armazenados no Pinecone/Supabase. Consultas retornam top-K trechos para o LLM responder. Quando usar: Grandes volumes de documentos. Benefício: Escala, baixo custo por query e alta velocidade. Limitação: Exige pipeline bem feito; se embeddings ou chunking forem ruins, a qualidade cai.
Nível 4 — Hybrid RAG⌗
O que é: Combina busca semântica (significado) com busca por palavra-chave (termo exato). Exemplo: Manual automotivo → erro “P0420” precisa ser achado literalmente (keyword), mas “carro/veículo” pode ser entendido via semântica. Quando usar: Documentos técnicos, jurídicos ou médicos. Benefício: Equilíbrio entre precisão conceitual e técnica. Limitação: Precisa manter dois sistemas (vetorial + keyword).
Nível 5 — Contextual RAG⌗
O que é: Recupera não só a frase encontrada, mas também parágrafos antes e depois. Exemplo: Procedimento médico em 5 passos → se pergunta cai no passo 4, o sistema também traz os passos 1–3 e 5. Quando usar: Manuais de instruções, receitas, contratos, SOPs. Benefício: Respostas completas, sem perder a sequência lógica. Limitação: Mais tokens e risco de estourar a janela de contexto.
Nível 6 — Agentic RAG⌗
O que é: Um agente de IA controla a busca, refina perguntas, testa várias estratégias e avalia resultados. Exemplo: Usuário pergunta “meu sistema travou, o que faço?” → agente pede mais detalhes, refaz buscas e responde após validar os resultados. Quando usar: Perguntas vagas, suporte avançado, pesquisas complexas. Benefício: Mais precisão em casos ambíguos. Limitação: Pode custar caro e cair em loops de tentativas.
Nível 7 — Multi-index RAG⌗
O que é: Criar índices separados por tipo de conteúdo e conectá-los. Exemplo: Empresa com logs, tickets de suporte, documentos financeiros e e-mails → cada um tem seu índice; a pergunta cruza múltiplos índices. Quando usar: Organizações com bases de dados diversas. Benefício: Especialização por área, maior qualidade nas respostas. Limitação: Exige padronização de metadados e manutenção complexa.
Nível 8 — Graph RAG⌗
O que é: Estrutura em forma de grafo, conectando entidades e relações. Exemplo: Supply chain → Cliente X compra Produto Y, que foi feito pelo Fornecedor Z, atendido pelo Engenheiro W. Quando usar: Questões que exigem múltiplos saltos
Aqui estão os hacks que o autor do vídeo apresenta, explicados de forma clara, objetiva e com exemplos práticos:
1. Cheat Sheets no Context Dump⌗
- O que é: resumir cada página ou capítulo antes de colar no prompt.
- Exemplo: em vez de colar um manual de 200 páginas, gerar um resumo de 20 páginas com os pontos-chave.
- Benefício: reduz tokens, deixa a busca mais rápida e barata.
2. Usar Modelos com Janela Grande⌗
- O que é: aproveitar modelos que aceitam muitos tokens (ex.: Gemini 2.5 Flash, GPT-4.1).
- Exemplo: carregar até 700 páginas direto no contexto para responder perguntas sem embeddings.
- Benefício: elimina a necessidade de pipeline complexo em casos pequenos/médios.
3. Knowledge Distillation⌗
- O que é: condensar bases enormes em versões menores com apoio de IA.
- Exemplo: transformar 10.000 páginas jurídicas em um resumo de 500 páginas úteis.
- Benefício: viabiliza consultas em janelas menores, com custo mais baixo.
4. Prompt Caching⌗
- O que é: mandar um mega prompt uma vez e reaproveitar em várias perguntas dentro da janela de cache.
- Exemplo: equipe de suporte consulta o mesmo manual em 40 perguntas feitas na mesma hora.
- Benefício: pode reduzir custo em 70–75% nas interações seguintes.
5. Smart Chunks⌗
- O que é: dividir documentos em partes e usar um modelo leve para selecionar só os trechos relevantes.
- Exemplo: pergunta sobre férias → IA seleciona apenas as seções de RH, ignorando finanças/tecnologia.
- Benefício: economiza tokens, aumenta precisão, diminui risco de alucinação.
6. Contexto Dinâmico (Contextual RAG)⌗
- O que é: além do trecho encontrado, trazer parágrafos antes e depois.
- Exemplo: num manual de 5 passos, em vez de mandar só o passo 4, incluir os passos 1–3 e 5.
- Benefício: evita respostas fora de contexto ou instruções incompletas.
7. Limitar Agentes em Agentic RAG⌗
- O que é: definir limite de tentativas, orçamento de tokens e regras de parada.
- Exemplo: se a busca não achar a resposta em até 3 tentativas, encerrar e dar aviso ao usuário.
- Benefício: impede loops infinitos e custos inesperados.
8. Metadados Ricos⌗
- O que é: armazenar tags extras (autor, data, categoria) junto com embeddings.
- Exemplo: buscar apenas “contratos de 2023 da área financeira” em vez de varrer toda a base.
- Benefício: reduz ruído nas respostas e torna a recuperação mais precisa.
Esses hacks funcionam como atalhos inteligentes para deixar RAG mais barato, rápido e eficiente, sem cair na armadilha de complicar demais desde o início.
(técnico, jurídico, e-mail, CRM etc.) que podem ser consultados em conjunto. Exemplo: “Por que o sistema fica lento às terças?” Agente consulta índice de logs, agenda de deploys e tickets; cruza achados e explica a causa. Quando usar: empresas com dados heterogêneos e perguntas que cruzam áreas. Prós/Contras: qualidade sobe muito por especialização; manutenção mais pesada e necessidade de “roteador” inteligente. Hack: padronizar metadados entre índices (pessoa, produto, data, sistema) para facilitar joins na resposta.
Nível 8 — Graph RAG⌗
O que é: conhecimento modelado como grafo de entidades e relações; a resposta percorre “hops” entre nós. Exemplo: supply chain. Pergunta: “Qual engenheiro mais resolveu problemas do cliente X?” Caminho: cliente → produtos → incidentes → engenheiros → contagem. Quando usar: perguntas multi-salto, dependências complexas, visão 360° de clientes/ativos. Prós/Contras: descobre padrões e relações profundas; alto custo de modelagem/atualização e risco de relações quebradas. Hack: começar com subgrafos críticos (clientes top, produtos core) e expandir gradualmente; versionar o grafo.
Nível 9 — Agentic Graph RAG⌗
O que é: rede de agentes que descobre/valida/atualiza relações do grafo de forma contínua, além de percorrê-las para responder. Exemplo: varejo grande. Agentes descobrem novos vínculos (cliente→produto→amigos), validam, curam ligações antigas e respondem com base no grafo vivo. Quando usar: operações muito complexas e dinâmicas (Fortune 500, pesquisa em larga escala). Prós/Contras: auto-manutenção e insights preditivos; alto risco de conflito de agentes, custo e necessidade de governança forte. Hack: mediação entre agentes, limites de custo/tempo, auditoria de mudanças no grafo e “canário” de segurança para rollback.
Matriz rápida de escolha⌗
• Até \~300 páginas e urgência: Nível 0–1 • 300–3.000 páginas bem organizadas: Nível 2–3 • Termos técnicos/erros específicos: Nível 4 • Passo-a-passo com pré-requisitos: Nível 5 • Usuário vago/consulta difícil: Nível 6 • Muitas fontes e cruzamentos: Nível 7 • Perguntas de relacionamento multi-salto: Nível 8 • Operações vivas e auto-atualização: Nível 9
Aqui vai cada nível explicado, com exemplo prático e quando usar, de forma direta.
Nível 0 — Context Dump⌗
O que é: colar todo (ou quase todo) o conteúdo direto no prompt de um modelo com janela grande. Exemplo: manual de RH com 150 páginas. Você cria um “resumo-cheat sheet” de 20 páginas e cola no topo do prompt para responder dúvidas. Quando usar: bases pequenas/médias, necessidade de rapidez sem pipeline; protótipos. Prós/Contras: implementação instantânea e manutenção simples; porém consome tokens, tem limite de contexto e não escala tanto. Hack: destilar o conteúdo antes (cheat sheet por página/capítulo) para reduzir 60–80% dos tokens.
Nível 1 — Prompt Caching⌗
O que é: mesma lógica do Nível 0, mas explorando cache de prompt do provedor para baratear rodadas subsequentes. Exemplo: equipe de suporte faz 40 perguntas sobre o mesmo manual em 1 hora; o cache mantém o “bloco” carregado e barateia cada nova pergunta. Quando usar: sessões de perguntas repetitivas em janela curta (minutos/horas). Prós/Contras: custo muito menor após a 1ª chamada; depende do tempo/escopo do cache e ainda tem limite de contexto. Hack: agrupar perguntas por tema e dispará-las dentro da janela de cache.
Nível 2 — Smart Chunks⌗
O que é: dividir documentos em partes e selecionar apenas os trechos relevantes antes de enviar ao modelo. Exemplo: wiki de 500 páginas rotulada por área (RH, Finanças, TI). Um “roteador” leve detecta o tema da pergunta e só envia os trechos do setor correto. Quando usar: bases organizadas com pouca sobreposição entre temas. Prós/Contras: cai o custo e o risco de alucinação; pode errar se a pergunta cruzar áreas ou se a taxonomia estiver bagunçada. Hack: criar sumários por capítulo e tags por entidade (pessoa, sistema, produto) para melhorar o roteamento.
Nível 3 — RAG Tradicional⌗
O que é: embeddings + banco vetorial; busca semântica e “top-K” para montar o contexto da resposta. Exemplo: 50 mil PDFs de atendimento. Pipeline extrai texto, cria embeddings e armazena; a pergunta retorna K trechos mais próximos para o LLM responder. Quando usar: grandes volumes, muitas fontes, necessidade de custo baixo por consulta. Prós/Contras: escala e é barato/rápido por query; exige ingestão bem feita, metadados e tuning de chunking/top-K. Hack: guardar metadados ricos (tipo, data, autor, área) e filtrar antes da busca vetorial.
Nível 4 — Hybrid RAG⌗
O que é: combinar busca semântica (conceito) com busca por palavra-chave (termo exato). Exemplo: diagnóstico técnico com código de erro “P0420”. Semântica entende “carro/veículo/ECU”; keyword garante pegar o “P0420” literal. Quando usar: domínios técnicos, jurídico/médico, logs e manuais com termos exatos. Prós/Contras: cobre bem conceito + termo literal; maior complexidade e manutenção de dois índices. Hack: usar palavra-chave só como “prova” (re-rank) após a busca semântica, reduzindo atrito operacional.
Nível 5 — Contextual RAG⌗
O que é: além do trecho encontrado, trazer parágrafos antes/depois para preservar a sequência/condição. Exemplo: procedimento médico em 5 passos. Em vez de mandar só o passo 4, incluir passos 1–3 e 5 ao redor. Quando usar: conteúdo com ordem e dependências (SOPs, receitas, contratos, instruções). Prós/Contras: respostas mais corretas e seguras; aumenta tokens e pode estourar contexto. Hack: janelas dinâmicas: 1 parágrafo se curto, 2–3 se longo; e truncar listas extensas mantendo pré-requisitos.
Nível 6 — Agentic RAG⌗
O que é: um agente controla a busca, reformula a pergunta, faz múltiplas tentativas e avalia resultados antes de responder. Exemplo: help desk recebe “o sistema travou, e agora?”. O agente pede detalhes, tenta buscas diferentes, cruza fontes e só então responde. Quando usar: perguntas vagas, múltiplas fontes e necessidade de julgamento/autocorreção. Prós/Contras: lida bem com ambiguidade e melhora precisão; pode custar caro e “loopar” sem limites. Hack: impor limites de passos, orçamento e regras de parada; logar tentativas e reutilizar boas reformulações.
Nível 7 — Multi-index RAG⌗
O que é: vários índices especializados
RAG é mais simples do que parece (90% fazem errado) Resumo Estruturado do Vídeo
- Conceito Geral de RAG
- RAG não é uma técnica única, mas um espectro de métodos.
- Muitas empresas começam direto no complexo, quando o simples já resolveria.
- O ideal é iniciar pelo básico e só evoluir quando houver necessidade real.
- Níveis Básicos
- Context Dump (Nível 0): colocar todo o conteúdo no prompt. Rápido e útil para bases pequenas, mas caro e limitado.
- Prompt Caching (Nível 1): aproveita cache do modelo, reduzindo custo em interações repetidas.
- Smart Chunks (Nível 2): separa trechos relevantes. Reduz alucinações e custo, mas exige boa organização dos documentos.
- Níveis Intermediários
- RAG Tradicional (Nível 3): usa embeddings e banco vetorial. Escala para milhões de páginas, barato e rápido, mas exige configuração cuidadosa.
- Hybrid RAG (Nível 4): combina busca semântica com busca por palavra-chave. Equilibra precisão técnica e conceitual.
- Contextual RAG (Nível 5): inclui trechos vizinhos ao encontrado, útil para manuais e processos passo a passo.
- Níveis Avançados
- Agentic RAG (Nível 6): agentes controlam a busca, refinam perguntas e avaliam respostas. Mais caro, mas lida bem com questões vagas.
- Multi-index RAG (Nível 7): múltiplos índices especializados (jurídico, técnico, financeiro) que se conectam entre si.
- Graph RAG (Nível 8): cria mapas de relacionamento entre entidades (clientes, produtos, problemas, soluções). Útil em supply chain e análises complexas.
- Agentic Graph RAG (Nível 9): rede auto-organizada de agentes que descobrem, validam e mantêm relações. Muito poderoso, mas caro e difícil de manter.
- Conclusão
- A escolha deve ser prática, guiada pelo caso de uso real.
- Para 90% dos casos, os níveis simples e intermediários já são suficientes.
- O segredo é começar pelo mais fácil, obter resultados e só avançar quando necessário.
Lista com o nível:
Nível 0 – Context Dump: colar todo o conteúdo no prompt. Nível 1 – Prompt Caching: aproveitar cache do modelo para reduzir custos. Nível 2 – Smart Chunks: seleção de trechos relevantes para consulta. Nível 3 – RAG Tradicional: embeddings + banco vetorial. Nível 4 – Hybrid RAG: combinação de busca semântica e palavra-chave. Nível 5 – Contextual RAG: inclui o trecho encontrado e o contexto ao redor. Nível 6 – Agentic RAG: agentes controlam e refinam a busca. Nível 7 – Multi-index RAG: vários índices especializados conectados. Nível 8 – Graph RAG: mapa de relacionamentos entre entidades. Nível 9 – Agentic Graph RAG: rede de agentes que descobrem, validam e mantêm relações.
Agentic Grahp
Graph
Multi Index
Agentic
Contextual
Hibrida
Tradicional
t.me/c/2238677701/3419 ↗ INEMA.IA (Conceitos)
m34 - Niveis de RAG
1