Discussão sobre o estudo "LLMs Get Lost in Multi-Turn Conversations",…

INEMA

O estudo “LLMs Get Lost in Multi-Turn Conversations” confirma que os modelos de linguagem grandes (LLMs) têm uma queda média de 39% no desempenho quando usados em conversas de múltiplas interações em comparação com instruções totalmente especificadas em um único prompt.

Eles identificaram duas principais causas para essa degradação:

Perda de aptidão (aptitude) – uma redução de cerca de 15% no desempenho técnico puro.
Aumento massivo na falta de confiabilidade (unreliability) – um crescimento de 112% na variabilidade das respostas. Isso significa que o modelo passa a dar resultados mais inconsistentes entre diferentes tentativas.

Principais descobertas e recomendações:

LLMs fazem suposições prematuras nas primeiras interações e tentam propor soluções finais cedo demais.
Dividir um pedido complexo em vários prompts menores (multi-turn) resulta em pior desempenho.
Consolidar todos os requisitos em um único mega-prompt detalhado gera 40% melhores resultados.
Estratégias como repetir informações em cada turno (Snowball) ou recapitular no final (Recap) melhoram um pouco, mas não eliminam o problema.
Reduzir a temperatura (para tornar as respostas mais determinísticas) não resolve o problema em cenários multi-turn.

Conclusão para usuários e desenvolvedores: Sempre que possível, forneça todas as instruções em um único prompt completo. Se precisar usar múltiplas interações, peça periodicamente para o LLM consolidar os requisitos já fornecidos e iniciar uma nova conversa com eles.

LLMs perdem 40% de eficácia em conversas (Estudo 📚)

Uma nova pesquisa (estudo anexado) revelou que todos os 15 LLMs testados apresentaram uma queda de 40% no desempenho em conversas de múltiplas interações.

Sabe quando você está usando o Bolt, Lovable ou Replit e a IA começa a mudar coisas que você não queria que fossem alteradas? É exatamente isso que o estudo quantificou.

Aqui está o que eles descobriram especificamente: enviar um mega-prompt detalhado → resulta em 40% melhores resultados do que dividir em vários prompts menores.

Exemplo do estudo: em vez de “escreva uma função Python”, depois “adicione suporte a CSV” e depois “adicione tratamento de erros” → combine tudo em um único prompt abrangente desde o início.

Claude 3.7 Sonnet apresentou a menor diferença de desempenho entre as abordagens, enquanto o GPT-4 e outros modelos mostraram diferenças enormes.

Insight principal: os LLMs tendem a atender cada prompt individualmente sem considerar requisitos futuros, o que leva a códigos que não se integram bem.

Se você precisar usar conversas de múltiplas interações, consolide periodicamente todos os requisitos em prompts de checkpoint para redefinir o contexto.

LLMs Perde 40% quando tem mais de uma Instrução.