A Intelligence Advanced Research Projects Activity (IARPA) lançou o programa TrojAI para enfrentar uma vulnerabilidade emergente na inteligência artificial moderna: a ameaça dos Trojans em IA. Esses Trojans são backdoors maliciosos, ocultos e intencionalmente embutidos em um modelo de IA, que podem causar falhas inesperadas no sistema ou permitir que um ator malicioso controle o modelo à vontade.
Como o programa TrojAI aborda essa ameaça?
O programa TrojAI, que se estende por vários anos, mapeou a complexa natureza da ameaça, desenvolveu métodos de detecção fundamentais e identificou desafios não resolvidos que exigem atenção contínua no campo emergente da segurança em IA. De acordo com informações do arXiv, o relatório sintetiza as principais descobertas do programa, incluindo metodologias para detecção por meio de análise de peso e inversão de gatilho, além de abordagens para mitigar riscos de Trojans em modelos implantados.
Quais são os resultados dos testes e avaliações?
Os resultados abrangentes de testes e avaliações destacam o desempenho dos detectores, sua sensibilidade e a prevalência de Trojans “naturais”. O relatório conclui com lições aprendidas e recomendações para o avanço da pesquisa em segurança de IA.
“Este programa pioneiro ajudou a mapear a natureza complexa da ameaça e a desenvolver métodos de detecção fundamentais”, afirma o relatório.
— Publicidade —Google AdSense • Slot in-article
Fonte original: arXiv.