Um estudo recente publicado no arXiv aborda os desafios do pré-treinamento de políticas robóticas em larga escala, destacando a combinação de aprendizado por reforço offline com aprendizado cruzado entre diferentes plataformas robóticas. Esta abordagem visa superar o alto custo de coleta de demonstrações de qualidade para cada plataforma.
Como o aprendizado por reforço offline é aplicado?
O aprendizado por reforço offline utiliza tanto dados de especialistas quanto dados subótimos abundantes. A técnica de aprendizado cruzado agrega trajetórias robóticas heterogêneas de diversas morfologias para adquirir controles universais. O estudo realiza uma análise sistemática dessa combinação, elucidando suas forças e limitações.
Quais foram os resultados dos experimentos?
Os experimentos realizados com um conjunto de dados de locomoção abrangendo 16 plataformas robóticas distintas demonstraram que a abordagem combinada é eficaz no pré-treinamento com dados ricos em trajetórias subótimas, superando a clonagem de comportamento pura. No entanto, à medida que a proporção de dados subótimos e o número de tipos de robôs aumentam, os gradientes conflitantes entre morfologias começam a dificultar o aprendizado.
Qual estratégia foi adotada para mitigar conflitos?
Para mitigar esses conflitos, os pesquisadores introduziram uma estratégia de agrupamento baseada em morfologia, onde robôs são agrupados por similaridade morfológica e o modelo é atualizado com um gradiente de grupo. Esta abordagem simples e estática reduz significativamente os conflitos entre robôs e supera métodos de resolução de conflitos existentes.
“Esta simples estratégia de agrupamento baseada em morfologia reduz substancialmente os conflitos inter-robôs e supera os métodos de resolução de conflitos existentes.”
Fonte original: arXiv