Os ambientes interativos de longo prazo servem como campo de testes para avaliar as habilidades de uso dos agentes. Essas configurações exigem raciocínio em múltiplas etapas, a combinação de várias habilidades ao longo de muitas etapas e uma tomada de decisão robusta sob recompensas atrasadas e parcialidade na observação. De acordo com informações do arXiv, modelos de linguagem de larga escala, conhecidos como LLMs, apresentam uma alternativa promissora como agentes de jogos, mas costumam falhar na tomada de decisão consistente em horizontes longos devido à falta de um mecanismo para descobrir, manter e reutilizar habilidades estruturadas em múltiplos episódios.
Em resposta a esse desafio, foi apresentado o COSPLAY, um framework de coevolução no qual um agente de decisão, baseado em LLM, recupera habilidades de um banco de habilidades apreensível para guiar suas ações. Enquanto isso, um pipeline gerido pelo agente descobre habilidades reutilizáveis a partir de execuções não rotuladas, formando um banco de habilidades robusto.
Como o COSPLAY melhora a precisão dos agentes?
O framework COSPLAY melhora o agente de decisão ao ensinar-lhe a recuperar habilidades e gerar ações de forma mais eficaz, enquanto o agente do banco de habilidades extrai, refina e atualiza continuamente habilidades junto com seus contratos.
Experimentos realizados em seis ambientes de jogo mostram que o COSPLAY com um modelo base de 8 bilhões de parâmetros consegue um aumento superior a 25,1 por cento na recompensa média em comparação com quatro bases de LLMs na fronteira em benchmarks de jogos single player, mantendo competitividade em jogos de raciocínio social multiplayer.
Quais são os resultados dos testes realizados com o COSPLAY?
No contexto de jogos de um jogador, a estrutura de coevolução demonstrou aumentar as recompensas em média superior a 25,1 por cento, conforme indicado pelas medições experimentais. Isso sugere que o COSPLAY é eficaz em melhorar o desempenho de LLMs como agentes de jogo.
Os testes em ambientes multijogador, por outro lado, mostraram que o COSPLAY também consegue se manter competitivo. Essa característica é vital para contextos que exigem raciocínio social complexo e interação entre múltiplos agentes.