Guia didático sobre as 8 configurações de parâmetros de LLMs no n8n,…
INEMA
Aqui estão exemplos práticos para cada uma das configurações de modelos de IA no n8n, mostrando o que acontece na prática ao ajustar cada opção:
1. Frequency Penalty (Penalidade por Frequência)⌗
- Para que serve: Evita que a IA repita palavras ou frases.
-
Exemplo prático:
-
Sem penalidade (0.0): “Este curso é muito muito muito bom!”
- Com penalidade alta (1.5): “Este curso é excelente e altamente recomendável.”
2. Max Number of Tokens (Número Máximo de Tokens)⌗
- Para que serve: Controla o tamanho da resposta.
-
Exemplo prático:
-
Baixo (50): “A Revolução Francesa começou em 1789 por…”
- Alto (500): “A Revolução Francesa começou em 1789 por diversas razões, incluindo…” (resposta detalhada com vários parágrafos)
3. Response Format (Formato da Resposta)⌗
- Para que serve: Define se a resposta será texto simples, JSON, etc.
-
Exemplo prático:
-
Text: “O clima em Porto Alegre hoje é ensolarado com máxima de 28 °C.”
-
JSON:
{ "cidade": "Porto Alegre", "clima": "ensolarado", "maxima": 28 }
4. Presence Penalty (Penalidade por Presença)⌗
- Para que serve: Evita que a IA repita qualquer palavra, incentivando diversidade.
-
Exemplo prático:
-
Sem penalidade (0.0): “O sol brilha, o sol aquece, o sol ilumina.”
- Com penalidade (1.0): “O astro aquece, irradia luz e traz calor.” (evita repetir "sol")
5. Sampling Temperature (Temperatura de Amostragem)⌗
- Para que serve: Controla a criatividade (aleatoriedade) da resposta.
-
Exemplo prático:
-
Baixo (0.2): “A água ferve a 100 °C ao nível do mar.” (fato direto e preciso)
- Alto (1.0): “A água, essa dança líquida, atinge o seu auge borbulhante a 100 °C.”
6. Timeout (Tempo Máximo de Espera)⌗
- Para que serve: Define quanto tempo o sistema espera pela resposta.
-
Exemplo prático:
-
Baixo (3000 ms): Em consultas longas, a IA pode falhar ou não responder a tempo.
- Alto (15000 ms): A IA consegue responder mesmo se o servidor estiver mais lento.
7. Max Retries (Tentativas Máximas)⌗
- Para que serve: Tenta de novo em caso de falha.
-
Exemplo prático:
-
1 tentativa: Se falhar por instabilidade, não tenta novamente.
- 3 tentativas: Reenvia até 3 vezes antes de desistir, útil em redes instáveis.
8. Top P (Probabilidade Acumulada)⌗
- Para que serve: Controla a diversidade das palavras escolhidas.
-
Exemplo prático:
-
Top P = 0.8: “O cachorro correu no parque.” (resposta mais comum e direta)
- Top P = 1.0: “O cão disparou alegremente pela grama verde do parque urbano.” (resposta mais variada e criativa)
Explicação das Opções do Modelo de IA
Aqui está o que cada opção do modelo de IA no n8n faz, junto com exemplos de quando você pode querer ajustá-las:
Frequency Penalty (Penalidade por Frequência)
- O que faz: Desencoraja o modelo a repetir as mesmas palavras ou frases. Valores mais altos (até 2.0) reduzem repetições; valores negativos incentivam repetições.
- Quando mudar: Se as respostas estiverem repetitivas (ex: “muito muito muito importante”), aumente a penalidade. Para poesia ou textos técnicos onde a repetição é útil, use um valor menor ou negativo.
Maximum Number of Tokens (Número Máximo de Tokens)
- O que faz: Define o comprimento máximo da resposta, em tokens (cada token ≈ 4 caracteres ou ¾ de uma palavra).
- Quando mudar: Para respostas curtas, use um limite baixo. Para textos longos (ensaios, relatórios), aumente o limite. Se definido como -1, pode significar "sem limite explícito", mas depende do modelo usado.
Response Format (Formato da Resposta)
- O que faz: Especifica o tipo de saída (texto simples, JSON, etc.).
- Quando mudar: Use "Text" para respostas em linguagem natural ou "JSON" se quiser dados estruturados para processamentos adicionais.
Presence Penalty (Penalidade por Presença)
- O que faz: Penaliza o uso repetido de palavras, mesmo que usadas apenas uma vez, incentivando vocabulário mais variado.
- Quando mudar: Aumente para mais criatividade (brainstorming, escrita criativa). Diminua para consistência em tarefas técnicas.
Sampling Temperature (Temperatura de Amostragem)
- O que faz: Controla a aleatoriedade da resposta. Valores baixos (<1) tornam as respostas mais previsíveis; valores altos (>1) geram mais criatividade.
- Quando mudar: Use valores baixos (0.2–0.5) para respostas factuais. Use valores altos (0.8–1.2) para conteúdo criativo.
Timeout (Tempo Máximo de Espera)
- O que faz: Define o tempo máximo (em milissegundos) que o sistema espera uma resposta antes de cancelar.
- Quando mudar: Aumente em consultas complexas ou com servidores lentos. Reduza em aplicações que exigem resposta rápida, como chatbots.
Max Retries (Número Máximo de Tentativas)
- O que faz: Quantas vezes o sistema tentará uma solicitação com erro antes de desistir.
- Quando mudar: Aumente para maior robustez em redes instáveis. Reduza para obter falhas mais rápidas.
Top P
- O que faz: Controla a diversidade da saída considerando somente o conjunto de palavras mais prováveis com soma de probabilidades ≥ valor de P (ex: 0.9).
- Quando mudar: Use valores menores (ex: 0.8) para respostas mais focadas e valores maiores (ex: 1.0) para respostas mais variadas.
- Nota: Recomenda-se ajustar temperature ou top P, mas não os dois ao mesmo tempo.
Cenários de Exemplo⌗
Para um assistente de escrita criativa:
- Aumente a Sampling Temperature para 1.0.
- Aumente o Top P para 0.95.
- Aumente a Presence Penalty para vocabulário único.
- Aumente o Max Tokens para histórias mais longas.
Para um bot de perguntas técnicas:
- Diminua a Sampling Temperature para 0.3.
- Diminua o Top P para 0.8.
- Mantenha penalidades de frequência e presença baixas para clareza.
8 Configurações de LLMs
1