Pesquisadores do arXiv apresentaram um método inovador para controlar Modelos de Linguagem de Grande Escala (LLMs) sem a necessidade de ajustes finos, conhecido como ‘activation steering’. Este método visa controlar características específicas, como persona, mas enfrenta desafios relacionados à degradação da coerência. De acordo com o estudo, essa degradação ocorre devido à intervenção no fluxo residual, que afeta indiscriminadamente características agregadas e amplifica ruídos fora do alvo.
Como a modulação de estilo pode melhorar o controle dos LLMs?
Os pesquisadores identificaram um subconjunto esparso de cabeças de atenção, denominadas Style Modulation Heads, que governam de forma independente a formação de persona e estilo. A localização dessas cabeças foi possível através de uma análise geométrica das representações internas, combinando similaridade cosseno por camada e pontuações de contribuição por cabeça.
“Intervenções direcionadas apenas a essas cabeças específicas alcançam um controle comportamental robusto, ao mesmo tempo que mitigam significativamente a degradação da coerência observada no direcionamento do fluxo residual”, afirmam os autores.
Quais são os impactos mais amplos dessa descoberta?
Os resultados indicam que a localização precisa em nível de componente permite um controle mais seguro e preciso dos modelos. Isso representa um avanço significativo para a aplicação prática e segura dos LLMs, oferecendo um caminho para intervenções mais eficazes sem comprometer a integridade do modelo.
Fonte original: arXiv