Discussão sobre a manipulação de benchmarks de LLMs por grandes…

INEMA

alguns links q o o documento condena

Arena de Chatbots: https://lmarena.ai MT Bench/Arena-Hard: https://lmarena.ai Classificação do Open LLM: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard OpenCompass: https://rank.opencompass.org.cn/leaderboard-ll Classificação do Vellum: https://www.vellum.ai/llm-leaderboard Tabela de classificação KLU: https://klu.ai/llm-leaderboard EQ-Bench: https://eqbench.com Coleção Big Benchmarks: https://huggingface.co/collections/open-llm-leaderboard/the-big-benchmarks-collection-64faca6335a7fc7d4ffe974a

Aparentemente, benchmarks de modelos são besteira... 🤔

Li o estudo em anexo (muito grosso, então vou resumir) que sugere que todas essas manchetes sobre "desempenho incrível" que vemos praticamente todos os dias podem ser... mentira. Todas essas empresas parecem, na verdade, manipular o sistema, ajustando seus modelos para se saírem bem apenas nos testes específicos dos benchmarks.Então, da próxima vez que virmos "este modelo muda tudo!??!", o desempenho de referência não será necessariamente igual ao desempenho do "mundo real".

Conclusão:

Não é uma corrida justa: grandes empresas (pense em Google, Meta, Amazon) testam discretamente muitas versões de modelos privados e publicam apenas aquela com maior pontuação, o que lhes dá uma vantagem integrada no gráfico.

Eles também recebem a maior parte dos "treinos de prática": como seus modelos aparecem em muito mais partidas da Arena, gigantes como OpenAI e Google captam a maior parte das solicitações e feedbacks dos usuários, enquanto os modelos de código aberto recebem apenas uma pequena parcela. Mais dados → melhor ajuste → pontuações mais altas Portanto, as classificações podem enganar você: modelos que parecem estar em primeiro lugar podem estar apenas supertreinados para este jogo específico; os mesmos ganhos nem sempre aparecem em benchmarks mais amplos ou em tarefas do mundo real. Trate a tabela de classificação como uma curiosidade, não como uma verdade absoluta.

Agora você sabe!

Ilusão dos Benchmarks 2025

Discussão sobre a manipulação de benchmarks de LLMs por grandes…

Recursos