TurboQuant reduz uso de memória em IA com abordagem matemática do Google - Brasileira.News
Início Tecnologia Inteligência Artificial TurboQuant reduz uso de memória em IA com abordagem matemática do Google

TurboQuant reduz uso de memória em IA com abordagem matemática do Google

0
10
Representação gráfica abstrata com linhas de dados digitais convergindo para um núcleo luminoso e eficiente.
Foto: Autor / Flickr (CC BY)

Uma técnica do Google chamada TurboQuant promete reduzir drasticamente o consumo de memória em modelos de inteligência artificial sem comprometer a precisão. A inovação ataca um dos principais gargalos da inferência em grandes modelos de linguagem (LLMs): o cache KV (Key-Value), que armazena vetores em memória para acelerar a geração de texto. De acordo com informações do Substack de adlrocha, o método permite uma compressão de até seis vezes no tamanho do cache KV, com ganhos de desempenho de até oito vezes em GPUs H100.

Na prática, avanços desse tipo podem ter efeito sobre o custo de operação de serviços de IA generativa, inclusive em mercados como o brasileiro, onde a infraestrutura de computação de alto desempenho ainda é mais restrita e cara do que em grandes polos globais. Menor uso de memória também pode facilitar a oferta de modelos com contexto mais longo em aplicações corporativas e de atendimento no país.

O TurboQuant opera em duas etapas: PolarQuant e QJL (Quantised Johnson-Lindenstrauss). A primeira converte vetores de coordenadas cartesianas para polares — raio e ângulo — explorando a concentração previsível dos ângulos em espaços de alta dimensão usados por transformadores. Isso elimina a necessidade de normalização e ajustes específicos por modelo ou conjunto de dados. A segunda etapa corrige erros introduzidos pela quantização, usando uma projeção aleatória que preserva distâncias entre pontos, codificando o resíduo com apenas um bit de sinal (+1 ou -1), sem custo adicional de memória.

Por que o cache KV é um problema?

Modelos autoregressivos, como os da família Llama ou Gemma, geram texto token por token, recalculando repetidamente as chaves e valores de todos os tokens anteriores a cada passo. Para evitar esse desperdício computacional, os sistemas armazenam esses vetores em um cache na memória da GPU. Contudo, em contextos longos — como conversas estendidas ou análise de código-fonte — o cache KV pode consumir mais memória do que os próprios parâmetros do modelo. Em um Llama 3.1 70B, por exemplo, isso se torna um obstáculo crítico para escalabilidade e custo.

— Publicidade —
Google AdSense • Slot in-article

Como o TurboQuant se diferencia de outras técnicas?

A maioria dos métodos de quantização exige calibração prévia com dados representativos para ajustar grades de quantização, o que limita sua aplicação imediata em produção. O TurboQuant, por outro lado, é “independente de dados”: funciona diretamente nos vetores, sem necessidade de treinamento adicional ou fine-tuning. Testes mostraram neutralidade de qualidade em benchmarks como LongBench e Needle In A Haystack, mesmo operando com apenas 3,5 bits por canal. A 2,5 bits, a degradação de precisão foi descrita como mínima.

  • Redução de 6x no uso de memória do cache KV
  • Ganho de até 8x em desempenho em GPUs H100
  • Nenhum fine-tuning ou calibração necessária
  • Funciona em múltiplos modelos: Gemma, Mistral, Llama-3.1-8B-Instruct

DEIXE UM COMENTÁRIO

Please enter your comment!
Please enter your name here