cerebro-vip INEMA.CLUB
inícioINEMA.N8N

Aula e14 do curso INEMA sobre RAG Semântico — comparação com RAG…

INEMA.N8N · 2025-04-26 · ~2 min · ver no Telegram ↗

INEMA

e14. RAG Semântico: Precisão no Nível Máximo

Aprendemos a construir um RAG Semântico, uma forma avançada de armazenar informações em uma base vetorizada com metadados enriquecidos, que aumentam a precisão na recuperação de dados e respostas contextuais. É feita uma comparação com o RAG tradicional e explicado por que a abordagem semântica é muito mais poderosa.

🧩 Estrutura da Automação

1. RAG Tradicional
- Extraímos texto de um PDF.
- Dividimos o conteúdo em blocos (chunks) de 1000 caracteres com sobreposição de 100.
- Armazenamos apenas o conteúdo e um metadado mínimo: o ID do arquivo.
- Problemas: pouca estruturação, sem seções ou subseções, menor contexto.

2. RAG Semântico
- Usamos o GPT-4.1 da OpenAI para analisar o texto completo do documento.
- Obtemos um resumo hierárquico em JSON com:
- Título do documento
- Seções e subseções
- Índices de início e fim de cada bloco
- Dividimos o documento em blocos semânticos com pelo menos 3 frases e 500 caracteres.
- Cada bloco inicia e termina de forma coerente, mantendo o sentido completo.

🛠️ Processo Técnico Passo a Passo

  1. Extração do Texto
    - O PDF é baixado e seu texto é extraído por completo.

  2. Resumo Hierárquico
    - O texto é enviado à OpenAI para gerar a estrutura hierárquica (título, seções, subseções).

  3. Fragmentação Semântica
    - Usamos código para cortar o texto com base em sentido completo, e não por tamanho fixo.

  4. Associação de Blocos com Seções
    - Cada bloco é associado a uma seção e subseção específicas via análise da OpenAI.

  5. Limpeza de Dados
    - Caracteres especiais ou problemáticos são removidos antes do carregamento.

  6. Geração de Embeddings
    - Cada bloco é transformado em vetor com a API de embeddings da OpenAI (modelo text-embedding-3-small).

  7. Carga no Supabase
    - Os dados são enviados ao Supabase: conteúdo, metadados (título, seção, subseção, nome do arquivo, ID) e embeddings.

📊 Vantagens do RAG Semântico

  • Muito mais precisão na recuperação da informação.
  • Cada bloco possui seu contexto: seção, subseção e título.
  • Ideal para temas complexos ou documentos extensos com múltiplos tópicos.
  • Os embeddings permitem buscas semânticas avançadas e respostas mais bem contextualizadas.

⚠️ Desvantagens

  • Mais lento para carregar comparado ao RAG tradicional.
  • Montagem mais complexa (exige código).
  • Não é necessário se a precisão contextual não for crítica.

✅ Conclusão

O RAG Semântico oferece uma forma ultra precisa de armazenar e recuperar informações com contexto estruturado. Apesar do processo ser mais lento, o resultado final é muito mais útil e confiável e recomenda usar este método em todos os novos sistemas de recuperação de informação.

📌 O que vem a seguir

Na próxima será construído um RAG Semântico interativo, onde será comparado o desempenho do RAG tradicional vs. o RAG semântico em um caso prático.

e14 - RAG Semantico

1

Recursos

🔒 Fonte (ChatGPT) — acesso privado

↑ voltar ao topo · ver no Telegram ↗