Tecnologia

Modelos de Difusão Revolucionam Aprendizado por Reforço Multiagente Online

Por

24/02/2026

O Aprendizado por Reforço Multiagente Online (MARL) é uma estrutura proeminente para a coordenação eficiente de agentes. Recentemente, modelos generativos baseados em difusão têm se destacado por sua expressividade e representação multimodal, especialmente em geração de imagens e configurações offline. No entanto, seu potencial no MARL online ainda é pouco explorado. De acordo com informações do arXiv, um dos principais desafios é que as probabilidades intratáveis dos modelos de difusão dificultam a exploração e coordenação baseadas em entropia.

Como o OMAD aborda esses desafios?

Para enfrentar esse desafio, foi proposto um dos primeiros frameworks de Aprendizado por Reforço Multiagente Online fora da política usando políticas de Difusão (OMAD). A inovação chave é um objetivo de política relaxado que maximiza a entropia conjunta escalada, facilitando a exploração efetiva sem depender de probabilidade tratável. Dentro do paradigma de treinamento centralizado com execução descentralizada (CTDE), é utilizado uma função de valor de distribuição conjunta para otimizar políticas de difusão descentralizadas.

Quais são os resultados do OMAD?

O método OMAD aproveita alvos aumentados por entropia tratável para guiar as atualizações simultâneas das políticas de difusão, garantindo uma coordenação estável. Avaliações extensas em MPE e MAMuJoCo estabeleceram o método como o novo estado da arte em dez tarefas diversas, demonstrando uma melhoria notável de 2,5 vezes a 5 vezes na eficiência de amostra.

“Nosso objetivo de política relaxado maximiza a entropia conjunta escalada, facilitando uma exploração efetiva sem depender de probabilidade tratável.”

— Publicidade —

Google AdSense • Slot in-article

Fonte original: arXiv

Modelos de Difusão Revolucionam Aprendizado por Reforço Multiagente Online

Como o OMAD aborda esses desafios?

Quais são os resultados do OMAD?

DEIXE UM COMENTÁRIO Cancel reply

Sobre

Últimas

Reator nuclear na órbita da Lua vira meta da Casa Branca para 2028

Petrobras recusa 10% do pedido de diesel para maio, dizem fontes

Meta prevê demissões em massa a partir de 20 de maio em nova reestruturação

Mais Lidas

Reator nuclear na órbita da Lua vira meta da Casa Branca para 2028

Petrobras recusa 10% do pedido de diesel para maio, dizem fontes

Meta prevê demissões em massa a partir de 20 de maio em nova reestruturação

Mapa do Site