Modelos de Difusão Revolucionam Aprendizado por Reforço Multiagente Online - Brasileira.News
Início Tecnologia Modelos de Difusão Revolucionam Aprendizado por Reforço Multiagente Online

Modelos de Difusão Revolucionam Aprendizado por Reforço Multiagente Online

0
11

O Aprendizado por Reforço Multiagente Online (MARL) é uma estrutura proeminente para a coordenação eficiente de agentes. Recentemente, modelos generativos baseados em difusão têm se destacado por sua expressividade e representação multimodal, especialmente em geração de imagens e configurações offline. No entanto, seu potencial no MARL online ainda é pouco explorado. De acordo com informações do arXiv, um dos principais desafios é que as probabilidades intratáveis dos modelos de difusão dificultam a exploração e coordenação baseadas em entropia.

Como o OMAD aborda esses desafios?

Para enfrentar esse desafio, foi proposto um dos primeiros frameworks de Aprendizado por Reforço Multiagente Online fora da política usando políticas de Difusão (OMAD). A inovação chave é um objetivo de política relaxado que maximiza a entropia conjunta escalada, facilitando a exploração efetiva sem depender de probabilidade tratável. Dentro do paradigma de treinamento centralizado com execução descentralizada (CTDE), é utilizado uma função de valor de distribuição conjunta para otimizar políticas de difusão descentralizadas.

Quais são os resultados do OMAD?

O método OMAD aproveita alvos aumentados por entropia tratável para guiar as atualizações simultâneas das políticas de difusão, garantindo uma coordenação estável. Avaliações extensas em MPE e MAMuJoCo estabeleceram o método como o novo estado da arte em dez tarefas diversas, demonstrando uma melhoria notável de 2,5 vezes a 5 vezes na eficiência de amostra.

“Nosso objetivo de política relaxado maximiza a entropia conjunta escalada, facilitando uma exploração efetiva sem depender de probabilidade tratável.”

— Publicidade —
Google AdSense • Slot in-article

Fonte original: arXiv



DEIXE UM COMENTÁRIO

Please enter your comment!
Please enter your name here