Desafios e Soluções para Modelos de Linguagem Visual em Tarefas de Direção - Brasileira.News
Início Tecnologia Desafios e Soluções para Modelos de Linguagem Visual em Tarefas de Direção

Desafios e Soluções para Modelos de Linguagem Visual em Tarefas de Direção

0
12

Um estudo recente publicado no arXiv destaca os desafios enfrentados por benchmarks de Multiple Choice Question Answering (MCQA) na avaliação do desempenho de Modelos de Linguagem Visual (VLM) em tarefas de direção. A pesquisa aponta que os MCQAs gerados sinteticamente são suscetíveis a pistas textuais ocultas, permitindo que os modelos explorem padrões linguísticos em vez de contexto visual.

Quais são as limitações dos MCQAs sintéticos?

Os resultados do estudo mostram que um VLM ajustado com dados sintéticos pode alcançar uma precisão comparável a benchmarks validados por humanos, mesmo sem entrada visual. Isso ocorre porque os modelos conseguem explorar atalhos textuais, comprometendo a avaliação real de sua capacidade de compreensão perceptual.

Como o estudo propõe solucionar essas limitações?

Para mitigar esse problema, os pesquisadores propuseram um método que reduz a precisão cega de +66,9% acima do aleatório para +2,9%, eliminando a maioria dos atalhos textuais exploráveis. A estratégia envolve dissociar a resposta correta de artefatos linguísticos e empregar um aprendizado curricular, forçando o modelo a se basear em fundamentos visuais.

Qual é o impacto dessa abordagem no desempenho dos VLMs?

Essa abordagem garante que o desempenho dos modelos reflita com precisão a compreensão perceptual, ao invés de depender de pistas textuais. Isso representa um avanço significativo na forma como os VLMs são treinados e avaliados, promovendo uma avaliação mais precisa de suas capacidades em tarefas de direção.

— Publicidade —
Google AdSense • Slot in-article

Fonte original: arXiv



DEIXE UM COMENTÁRIO

Please enter your comment!
Please enter your name here