Aula/material sobre Context Engineering (Engenharia de Contexto) para…

INEMA

30% evidências, 20% histórico sumariado, 10% ferramentas, 10% margem. • Se exceder: re-compressão; se ainda exceder: drop dos itens com menor score. • Se NLI detectar contradição: preferir documento mais recente; se empate, pedir clarificação ao usuário.

Como aplicar no n8n (alto nível) • Nodes: Retrieve docs → Rank/Score → Summarize → Conflict check → Token budgeter → Context packer → LLM → Persist memory/log. • Use namespaces no seu banco vetorial e tags de confiança nas memórias. • Adicione um node de auditoria que escreve um JSON com: itens incluídos, itens excluídos e motivo.

Perguntas típicas e respostas exemplo • Como sei que selecionei bem? – Relevância média ≥ 0,5 e pelo menos 3 evidências alinhadas ao pedido.

• Quando re-sumariar? – Sempre que o orçamento de tokens estourar ou quando ROUGE de entidades < 0,9.

• E se duas fontes discordam? – Preferir a mais recente e com maior confiabilidade; registre a decisão na memória.

Resumo rápido Você garante as 4 estratégias (Write, Select, Compress, Isolate) criando um pipeline de contexto com regras claras, validações automáticas antes de cada chamada ao modelo, métricas de qualidade e testes de regressão. A ideia é: preparar → validar → empacotar → auditar → chamar o LLM → registrar.

Método em 6 passos

Ingestão • Entrada chega com tarefa, histórico e dados candidatos. • Adicione um task_id e um namespace para isolar fluxos.
Seleção inicial • Recupere só o que tem alta similaridade com a tarefa. • Reserve orçamento de tokens por tipo de item (instruções, memória, docs, ferramentas).
Compressão • Resuma histórico e docs longos com critérios objetivos de perda mínima. • Gere também uma versão “bullet” de 1–3 linhas como fallback.
Validações • Rode checagens automáticas de relevância, conflito, ruído e orçamento de tokens. • Se algo falhar, ajuste: re-selecionar, re-sumariar ou remover.
Empacotamento • Monte o contexto final em camadas: system → instruções da tarefa → memória selecionada → evidências → tool specs → pedido do usuário.
Auditoria e logging • Salve o pacote de contexto, decisões de filtro, métricas e a resposta do LLM com o task_id.

Validações por estratégia, com exemplos

Write (registrar o que importa) • Regra: toda decisão, passo de raciocínio externo e saída crítica de ferramenta viram memória persistente com carimbo de tempo, fonte e confiança. • Validação: nenhum passo “crítico” pode seguir sem ter sido salvo. • Exemplo: após classificar um lead, salve {lead_id, status, motivo, fonte}. • Resposta esperada: memória contém campos obrigatórios; confiança ≥ 0,7.

Select (trazer só o relevante) • Regra: inclua apenas itens com similaridade coseno ≥ 0,35 ou BM25 ≥ limiar. • Validação: proporção de itens relevantes ≥ 80%; nenhuma fonte sem score. • Exemplo: consulta “política de reembolso” só traz documentos com “reembolso/chargeback”. • Resposta esperada: lista final de 3–7 trechos altamente alinhados ao pedido.

Compress (resumir com controle) • Regra: resumir mantendo entidades, datas, números e decisões. • Validação: ROUGE/LF-Match de entidades ≥ 0,9 entre original e resumo. • Exemplo: histórico de 200 mensagens vira 10 bullets com quem-fez-o-quê e datas. • Resposta esperada: tokens do histórico reduzidos ≥ 70% sem perder fatos chave.

Isolate (isolar contextos/tarefas) • Regra: cada tarefa usa namespace próprio e só herda memórias com tag compatível. • Validação: nenhum item com namespace diferente entra; conflitos inter-tarefa bloqueiam. • Exemplo: atendimento do Cliente A não “vaza” para Cliente B. • Resposta esperada: 0 itens de outro namespace; conflitos detectados = 0.

Outras checagens úteis • Confusão por ferramentas: máximo 1–2 ferramentas candidatas; só expor specs da ferramenta realmente necessária. • Conflitos: use um verificador NLI/contradição; se houver contradição, priorize documento mais recente ou mais confiável. • Envenenamento: memórias só entram se tiverem fonte confiável ou confirmação cruzada.

Métricas e SLAs • Taxa de contexto aprovado no 1º passe ≥ 85%. • Relevância média dos trechos ≥ 0,5 (coseno). • Compressão do histórico ≥ 70% com preservação de entidades ≥ 0,9. • Conflitos por chamada = 0 (senão reprocessa). • Uso de tokens dentro do orçamento definido por camada.

Teste automático (offline) • Conjunto de casos com: – Tarefas claras, ambíguas e adversariais – Documentos redundantes e conflitantes – Históricos longos e ruidosos • Avaliações: – Seleção: precisão/recall de trechos relevantes – Compressão: preservação de entidades/datas/números – Isolamento: vazamento entre namespaces – Ferramentas: chamada incorreta quando ferramenta não é necessária

Monitoramento em produção • Amostragem de pacotes de contexto para revisão humana semanal. • Alertas quando relevância média cair, quando houver contradições detectadas ou quando o uso de tokens estourar. • Lista de bloqueio de memórias suspeitas; quarentena automática.

Exemplo prático de checks antes do LLM • Orçamento de tokens: 30% instruções,

STRATEGIES

Painel 1 – WRITE Guardar informações importantes fora da “cabeça” da IA. Exemplo: anotar uma receita em um caderno.

Painel 2 – SELECT Trazer apenas o que é realmente relevante para a tarefa. Exemplo: separar apenas os ingredientes para a receita.

Painel 3 – COMPRESS Resumir conversas e resultados longos, mantendo o essencial. Exemplo: contar o que aconteceu de forma resumida.

Painel 4 – ISOLATE Manter assuntos ou tarefas separados para evitar confusão. Exemplo: usar cadernos diferentes para trabalhos distintos.

Vou explicar de forma simples, como se fosse uma conversa do dia a dia, para qualquer pessoa entender.

1. Context Poisoning (Envenenamento de contexto) É como quando você ouve um boato errado e passa a acreditar nele como se fosse verdade. A IA também pode “guardar” uma informação falsa e usar isso para tomar decisões erradas depois.

2. Context Distraction (Distração de contexto) Imagine que você está tentando cozinhar uma receita e alguém fica te dando várias informações que não têm nada a ver com a comida. Você se perde. A IA também perde o foco quando recebe muito dado que não importa.

3. Context Confusion (Confusão de contexto) É como se te dessem cinco controles remotos diferentes para ligar a TV, todos com botões diferentes, e nenhum manual. A IA fica confusa quando recebe ferramentas ou dados demais que não são realmente úteis.

4. Context Clash (Conflito de contexto) Pense em quando duas pessoas te dão instruções diferentes para a mesma tarefa, e uma contradiz a outra. A IA também trava ou erra quando recebe informações que se chocam dentro do mesmo contexto.

“Content Engineering 101: A Beginner's Guide”

A maioria das falhas de agentes de IA não acontece por causa do modelo, mas sim por problemas no gerenciamento do contexto (context engineering).

O conceito é comparado à RAM de um computador: quando o espaço de contexto fica cheio ou mal organizado, o desempenho cai, surgem respostas genéricas, erros e alucinações.

Pontos principais:

O que é Context Engineering

É a prática de fornecer à IA apenas as informações relevantes, no momento certo, organizadas de forma otimizada.
Envolve gerenciar instruções, memórias, exemplos, ferramentas e dados recuperados de forma estratégica.
Está ligado a outras áreas como prompt engineering e RAG, mas abrange tudo o que entra na “janela de contexto” do modelo.

Por que é importante

Falhas comuns não são do modelo, mas do contexto mal gerido.
Quatro tipos de falhas identificadas: • Context poisoning – alucinações viram “verdades” na memória. • Context distraction – excesso de dados irrelevantes polui o raciocínio. • Context confusion – muitas ferramentas ou dados desnecessários confundem o modelo. • Context clash – informações conflitantes no mesmo contexto causam erros.

Problemas em sistemas multiagente

Vários agentes em paralelo, sem gerenciamento de contexto compartilhado, tendem a gerar sistemas frágeis e inconsistentes.

Como aplicar na prática (quatro estratégias)

Write: registrar o que importa em memória externa (decisões, raciocínios, saídas de ferramentas).
Select: recuperar apenas o que é necessário para a tarefa atual.
Compress: resumir interações e resultados para liberar espaço.
Isolate: separar janelas de contexto ou agentes por tarefas, repassando apenas resultados essenciais.

Conclusão: Gerenciar o que entra no contexto é tão importante quanto o próprio modelo. Dominar context engineering melhora a precisão, reduz erros e permite criar agentes mais confiáveis e escaláveis.

WSCI (ingles) - ESCI (portugues)

Escrever Selecionar Compatar Isolar

Como fazer na Pratica

Falhas de Contexto

Engenharia de Prompts x Engenharia de Contexto...

Engenharia de Contexto 101

Aula/material sobre Context Engineering (Engenharia de Contexto) para…

Recursos