Tecnologia

Modelos de Linguagem Competem em Novo Desafio de Raciocínio

Por

23/02/2026

Em um esforço para avaliar as capacidades de raciocínio de Modelos de Linguagem de Grande Escala, pesquisadores introduziram um novo método chamado The Token Games (TTG). Inspirado em duelos matemáticos do século XVI, o TTG permite que modelos desafiem uns aos outros criando seus próprios puzzles. De acordo com informações do arXiv, o objetivo é testar habilidades de raciocínio genuínas, evitando questões que os modelos possam ter encontrado durante o treinamento.

Como funciona o The Token Games?

O formato do TTG utiliza Puzzles de Programação, onde é dada uma função Python que retorna um valor booleano, e os modelos devem encontrar entradas que façam a função retornar verdadeiro. Este método flexível permite representar problemas e verificar soluções de forma eficaz. Os resultados dos duelos entre modelos são usados para calcular classificações Elo, permitindo comparações diretas entre eles.

Quais são os resultados dos testes?

Os pesquisadores avaliaram dez modelos de ponta usando o TTG e descobriram que as classificações obtidas estavam alinhadas com benchmarks existentes, como o Humanity’s Last Exam, sem a necessidade de intervenção humana na criação dos puzzles. No entanto, criar puzzles de qualidade ainda é uma tarefa desafiadora para os modelos atuais, algo que não é medido por benchmarks anteriores.

Qual é o impacto deste novo paradigma?

O estudo sugere novos paradigmas para a avaliação de raciocínio que não podem ser saturados por design e permitem testar modelos para outras habilidades, como criatividade e criação de tarefas, além da resolução de problemas.

— Publicidade —

Google AdSense • Slot in-article

“Nossa abordagem oferece um caminho inovador para avaliar habilidades que vão além do simples raciocínio lógico”, afirmam os pesquisadores.

Fonte original: arXiv

Modelos de Linguagem Competem em Novo Desafio de Raciocínio

Como funciona o The Token Games?

Quais são os resultados dos testes?

Qual é o impacto deste novo paradigma?

DEIXE UM COMENTÁRIO Cancel reply

Sobre

Últimas

Frente fria intensifica chuvas no Sul e alerta para Norte e Nordeste

Susana Vieira e Rodrigo Faro vão apresentar o reality Herança em Jogo

Escavações revelam devastação de assentamento neolítico no Lago Biel

Mais Lidas

Frente fria intensifica chuvas no Sul e alerta para Norte e Nordeste

Susana Vieira e Rodrigo Faro vão apresentar o reality Herança em Jogo

Escavações revelam devastação de assentamento neolítico no Lago Biel

Mapa do Site