Modelos de IA de ponta estão sendo capazes de gerar cópias quase idênticas de romances best-sellers, levantando novas questões sobre a afirmação da indústria de que seus sistemas não armazenam obras protegidas por direitos autorais. De acordo com informações do Ars Technica, uma série de estudos recentes mostrou que modelos de linguagem de grandes empresas como OpenAI, Google, Meta, Anthropic e xAI memorizam muito mais de seus dados de treinamento do que se pensava anteriormente.
Quais são as implicações legais dessa memorização?
Especialistas em IA e direito afirmam que essa capacidade de “memorização” pode ter sérias implicações nas batalhas legais que os grupos de IA enfrentam em relação a dezenas de processos de direitos autorais ao redor do mundo. Isso porque essa habilidade compromete a defesa central de que os modelos de linguagem “aprendem” com obras protegidas, mas não armazenam cópias. Yves-Alexandre de Montjoye, professor de matemática aplicada e ciência da computação no Imperial College London, afirmou:
“Há evidências crescentes de que a memorização é um problema maior do que se acreditava anteriormente.”
Como a indústria de IA responde às acusações?
Os grupos de IA há muito tempo argumentam que a memorização não ocorre. Em uma carta de 2023 ao Escritório de Direitos Autorais dos EUA, o Google afirmou que “não há cópia dos dados de treinamento – sejam textos, imagens ou outros formatos – presente no próprio modelo”. Além disso, a indústria alega que treinar modelos em livros protegidos por direitos autorais é “uso justo”, argumentando que a tecnologia transforma a obra original em algo significativamente novo.
Quais são os resultados dos estudos recentes?
Um estudo publicado no mês passado mostrou que pesquisadores das Universidades de Stanford e Yale conseguiram, de forma estratégica, fazer com que modelos de linguagem de OpenAI, Google, Anthropic e xAI gerassem milhares de palavras de 13 livros, incluindo “A Game of Thrones”, “The Hunger Games” e “The Hobbit”. Ao pedir aos modelos para completarem frases de um livro, o Gemini 2.5 regurgitou 76,8% de “Harry Potter e a Pedra Filosofal” com altos nÃveis de precisão, enquanto o Grok 3 gerou 70,3%.
Fonte original: Ars Technica