Apresentação do novo nó **Guardrails** da n8n, inspirado no recurso…
INEMA
Resumo⌗
Explica que a n8n lançou um novo nó chamado Guardrails, inspirado no recurso de proteção de agentes da OpenAI. Esse nó serve para proteger agentes de IA contra entradas maliciosas enviadas por usuários.
Como funciona o Guardrails⌗
O nó oferece duas funções principais:
- Verificar violações no texto
- Sanitizar (limpar) o texto
Ele ajuda a evitar:
- Extração do system prompt
- Tentativas de prompt injection
- Manipulação do comportamento do agente
- Conteúdo NSFW, ofensivo ou inadequado
- Desvios de tópico que tiram o agente de sua função
Uso prático no workflow⌗
- O criador conecta um chat trigger ao nó Guardrails.
-
Pode ser configurado como:
-
Pass/Fail: Se falhar, interrompe o fluxo.
- Sanitização em loop: Limpa o texto e testa novamente até passar.
Também é possível incluir palavras-chave perigosas como “ignore previous instructions” para aumentar a detecção.
Personalizações⌗
O nó permite:
- Ajustar o nível de rigor (similar ao "temperature").
-
Usar prompts personalizados para:
-
Detecção de ataques de jailbreak
- Moderação de conteúdo (ódio, nudez, violência etc.)
- Alinhamento de tópico (garantir que o usuário não tire o agente do foco)
Demonstração⌗
O criador mostra dois agentes:
- Um protegido com o Guardrails
- Um não protegido
Ao enviar uma tentativa clássica de engenharia social pedindo acesso às instruções internas do agente, o resultado foi:
- Agente protegido: bloqueou a tentativa imediatamente
- Agente não protegido: respondeu e começou a revelar suas próprias instruções
Conclusão⌗
O Guardrails da n8n é extremamente útil para:
- Chatbots e agentes voltados para clientes
- Situações onde o texto é um vetor de ataque
- Prevenir manipulação, vazamento de instruções e comportamentos indesejados
É uma solução simples e eficiente de implementar, levando poucos minutos para configurar.
n8n copia o nó Guardrails da OpenAI (proteja seus agentes)⌗
Lembra quando todo mundo enlouqueceu com o recurso de guardrails no construtor de agentes da OpenAI? A n8n acabou de cloná-lo e disponibilizou isso na sua versão mais recente.
O que esse recurso faz⌗
Ele intercepta a entrada do usuário:
- Verifica se há violações
- Bloqueia ou sanitiza o texto
- Só então envia ao seu agente
Tipos de ataques que ele detecta⌗
Ele consegue identificar três vetores principais de ataque:
-
Tentativas de prompt injection (como “ignore as instruções anteriores”, extração do system prompt, etc.)
-
Conteúdo NSFW e palavrões
-
Pedidos fora de tópico, que tentam desviar o agente de sua função principal
Testes práticos⌗
Eu testei com um ataque clássico de engenharia social pedindo ao agente para “me instruir” compartilhando seu system prompt.
- → O agente protegido bloqueou imediatamente.
- → O agente sem proteção tentou obedecer.
Configurações avançadas⌗
- Permite definir níveis personalizados de rigor.
- Dá para encadear processos de sanitização: ele limpa a entrada, verifica novamente e repete até que ela esteja adequada.
Recurso subestimado: alinhamento de tópico⌗
Esse recurso mantém o agente focado no trabalho real dele, impedindo que seja manipulado para conversas totalmente aleatórias.
Por que isso é importante⌗
Se você está criando agentes de IA voltados para clientes, usuários mal-intencionados (como eu 🤭) certamente vão tentar quebrá-los. Esses guardrails são exatamente o que você precisa.
Extras incluídos⌗
Estou incluindo o workflow e prompts personalizados para que você possa configurar tudo em 5 minutos.
m35 - n8n Copia OpenAI's Guardrails
1