Em um esforço para avaliar as capacidades de raciocínio de Modelos de Linguagem de Grande Escala, pesquisadores introduziram um novo método chamado The Token Games (TTG). Inspirado em duelos matemáticos do século XVI, o TTG permite que modelos desafiem uns aos outros criando seus próprios puzzles. De acordo com informações do arXiv, o objetivo é testar habilidades de raciocínio genuínas, evitando questões que os modelos possam ter encontrado durante o treinamento.
Como funciona o The Token Games?
O formato do TTG utiliza Puzzles de Programação, onde é dada uma função Python que retorna um valor booleano, e os modelos devem encontrar entradas que façam a função retornar verdadeiro. Este método flexível permite representar problemas e verificar soluções de forma eficaz. Os resultados dos duelos entre modelos são usados para calcular classificações Elo, permitindo comparações diretas entre eles.
Quais são os resultados dos testes?
Os pesquisadores avaliaram dez modelos de ponta usando o TTG e descobriram que as classificações obtidas estavam alinhadas com benchmarks existentes, como o Humanity’s Last Exam, sem a necessidade de intervenção humana na criação dos puzzles. No entanto, criar puzzles de qualidade ainda é uma tarefa desafiadora para os modelos atuais, algo que não é medido por benchmarks anteriores.
Qual é o impacto deste novo paradigma?
O estudo sugere novos paradigmas para a avaliação de raciocínio que não podem ser saturados por design e permitem testar modelos para outras habilidades, como criatividade e criação de tarefas, além da resolução de problemas.
“Nossa abordagem oferece um caminho inovador para avaliar habilidades que vão além do simples raciocínio lógico”, afirmam os pesquisadores.
Fonte original: arXiv