Tecnologia

Novo Benchmark WorkflowPerturb Avalia Precisão de Sistemas Baseados em LLM

Por

23/02/2026

O WorkflowPerturb é um novo benchmark desenvolvido para avaliar a precisão de sistemas baseados em LLM (Modelos de Linguagem de Grande Escala) em tarefas complexas. De acordo com informações do arXiv, o WorkflowPerturb aplica perturbações controladas a fluxos de trabalho ideais, permitindo uma análise detalhada das métricas de avaliação.

Como o WorkflowPerturb funciona?

O benchmark consiste em 4.973 fluxos de trabalho ideais e 44.757 variantes perturbadas, abrangendo três tipos de perturbações: etapas ausentes, etapas comprimidas e mudanças de descrição. Cada perturbação é aplicada em níveis de severidade de 10%, 30% e 50%. Isso permite que os pesquisadores analisem a sensibilidade e a calibração das métricas de avaliação.

Quais são os resultados e implicações?

Os resultados do WorkflowPerturb destacam diferenças sistemáticas entre as famílias de métricas e suportam uma interpretação consciente da severidade nas pontuações de avaliação dos fluxos de trabalho. O estudo fornece uma base para entender como as mudanças nas métricas refletem a degradação do fluxo de trabalho.

Qual é o impacto esperado?

O lançamento do dataset do WorkflowPerturb está previsto para ocorrer após a aceitação do estudo. Este benchmark promete ser uma ferramenta valiosa para a comunidade de pesquisa, oferecendo insights sobre a eficácia das métricas de avaliação em sistemas LLM.

— Publicidade —

Google AdSense • Slot in-article

Fonte original: arXiv

Novo Benchmark WorkflowPerturb Avalia Precisão de Sistemas Baseados em LLM

Como o WorkflowPerturb funciona?

Quais são os resultados e implicações?

Qual é o impacto esperado?

DEIXE UM COMENTÁRIO Cancel reply

Sobre

Últimas

Fachin transfere julgamento sobre ‘cura gay’ para plenário físico do STF

Ministro do STJ propõe que dívida de condomínio se submeta à recuperação judicial

LGPD: como a ANPD transforma princípios legais em critérios de fiscalização

Mais Lidas

Fachin transfere julgamento sobre ‘cura gay’ para plenário físico do STF

Ministro do STJ propõe que dívida de condomínio se submeta à recuperação judicial

LGPD: como a ANPD transforma princípios legais em critérios de fiscalização

Mapa do Site