Steerling-8B é o primeiro modelo de linguagem interpretável que permite rastrear qualquer token gerado até seu contexto de entrada, conceitos compreensíveis por humanos e seus dados de treinamento. Treinado em 1,35 trilhões de tokens, o modelo alcança desempenho comparável a modelos que utilizam de duas a sete vezes mais dados. De acordo com informações do Guide Labs, o Steerling-8B desbloqueia várias capacidades, incluindo a supressão ou amplificação de conceitos específicos no momento da inferência sem necessidade de retreinamento.
Como o Steerling-8B Funciona?
Pela primeira vez, um modelo de linguagem com escala de oito bilhões de parâmetros pode explicar cada token que produz de três maneiras principais. Especificamente, para qualquer grupo de tokens de saída que o Steerling gera, é possível rastrear esses tokens até seu contexto de entrada. O modelo é construído sobre uma base de modelo de difusão discreta causal, permitindo direcionar a geração através de múltiplos tokens em vez de apenas no próximo token.
Quais são as Inovações do Steerling-8B?
O Steerling-8B decompõe as embeddings do modelo em três caminhos explícitos: aproximadamente 33 mil conceitos “conhecidos” supervisionados, cerca de 100 mil conceitos “descobertos” que o modelo aprende por conta própria, e um residual que captura o que resta. Isso permite que o modelo roteie sinais através de conceitos sem comprometer o desempenho. Cada previsão é decomposta exatamente em contribuições por conceito, que podem ser editadas no momento da inferência sem retreinamento.
Qual é o Desempenho do Steerling-8B?
Apesar de ter sido treinado com significativamente menos recursos computacionais do que modelos comparáveis, o Steerling-8B alcança desempenho competitivo em benchmarks padrão. Em um conjunto de validação, mais de 84% da contribuição em nível de token vem do módulo de conceito, indicando que o modelo não depende apenas do residual para fazer suas previsões.
O Steerling-8B também pode detectar conceitos conhecidos em texto com uma AUC de 96,2% em um conjunto de validação. Nas próximas semanas, serão lançados estudos detalhados sobre cada uma dessas capacidades, com avaliações quantitativas e estudos de caso orientados para implantação.
Fonte original: Guide Labs