Um artigo submetido ao arXiv em 22 de abril de 2026 propõe uma nova forma de avaliar sistemas de inteligência artificial usados em ambientes regidos por regras, como a moderação de conteúdo. Assinado por Michael O’Herlihy e Rosa Català, o trabalho argumenta que medir apenas a concordância entre decisões da IA e rótulos humanos pode levar a erros de avaliação quando mais de uma decisão é logicamente compatível com a política aplicada. De acordo com informações do arXiv, os autores chamam esse problema de “Agreement Trap”, ou “armadilha da concordância”.
O estudo foi classificado na área de Ciência da Computação, com foco em Inteligência Artificial, e apresenta um modelo de avaliação baseado na correção fundamentada em políticas explícitas. Em vez de perguntar apenas se a decisão da máquina coincide com uma resposta humana anterior, os pesquisadores propõem verificar se a decisão pode ser logicamente derivada da hierarquia de regras que governa o sistema.
O que o estudo chama de “armadilha da concordância”?
Segundo o resumo do artigo, sistemas de moderação de conteúdo costumam ser avaliados pela concordância com rótulos humanos. Os autores sustentam que essa premissa falha em ambientes orientados por regras, porque diferentes decisões podem ser consistentes com a mesma política. Nessa situação, métricas de concordância podem punir decisões válidas e tratar ambiguidades como se fossem erros reais.
Para enfrentar essa limitação, o trabalho formaliza a avaliação como uma análise de correção ancorada na política. O artigo introduz três conceitos centrais: o Defensibility Index, identificado pela sigla DI; o Ambiguity Index, ou AI; e o Probabilistic Defensibility Signal, ou PDS. A proposta é usar esses sinais para medir se uma decisão automatizada é defensável à luz das regras, e não apenas semelhante a um histórico de marcações humanas.
Quais métricas os autores apresentam?
O texto informa que o Defensibility Index e o Ambiguity Index foram criados para avaliar, respectivamente, a defensabilidade de uma decisão e o grau de ambiguidade no processo. Já o Probabilistic Defensibility Signal é descrito como um mecanismo para estimar a estabilidade do raciocínio sem exigir auditorias adicionais, a partir de probabilidades registradas pelo modelo de auditoria.
Na abordagem descrita pelos pesquisadores, os rastros de raciocínio de grandes modelos de linguagem são usados como sinal de governança, e não apenas como saída de classificação. Nesse desenho, o modelo de auditoria não decide diretamente se um conteúdo viola a política, mas verifica se uma decisão proposta pode ser logicamente derivada da estrutura de regras aplicável.
- Defensibility Index (DI): mede a defensabilidade da decisão sob a política
- Ambiguity Index (AI): mede a ambiguidade associada à decisão
- Probabilistic Defensibility Signal (PDS): estima a estabilidade do raciocínio do modelo
Em quais dados a proposta foi testada?
De acordo com o resumo, o framework foi validado com mais de 193 mil decisões de moderação no Reddit, abrangendo múltiplas comunidades e grupos de avaliação. Os autores relatam uma diferença de 33 a 46,6 pontos percentuais entre métricas baseadas em concordância e métricas fundamentadas em política.
O artigo também afirma que entre 79,8% e 80,6% dos falsos negativos do modelo correspondiam, na verdade, a decisões sustentadas pela política, e não a erros genuínos. Em outro teste, a auditoria de 37.286 decisões idênticas sob três níveis de regras da mesma comunidade reduziu o Ambiguity Index em 10,8 pontos percentuais, enquanto o Defensibility Index permaneceu estável.
Qual é a principal conclusão do artigo?
Os autores afirmam ainda que a variação observada no PDS, em análises com amostragens repetidas, decorre principalmente da ambiguidade de governança, e não de ruído de decodificação. O trabalho acrescenta que um “Governance Gate” construído com base nesses sinais alcançou cobertura de automação de 78,6%, com redução de risco de 64,9%.
Na conclusão resumida no registro do arXiv, os pesquisadores defendem que a avaliação de sistemas de IA em ambientes regulados por regras deve migrar da simples concordância com rótulos históricos para uma validação baseada no raciocínio e na aderência a regras explícitas. O artigo é apresentado como preprint, com 22 páginas e dez figuras, o que indica que se trata de uma versão preliminar de pesquisa ainda disponibilizada para circulação acadêmica.