A inteligência artificial continua a enfrentar desafios significativos ao lidar com o formato PDF, criado pela Adobe nos anos 1990 para manter a aparência visual precisa dos documentos. De acordo com informações do Slashdot, mesmo os modelos mais avançados de IA têm dificuldades em extrair informações de PDFs, frequentemente confundindo notas de rodapé com o texto principal ou até mesmo inventando conteúdos.
Como as empresas estão abordando o problema?
Empresas como a Reducto estão adotando novas abordagens para resolver esses problemas. Elas segmentam as páginas em componentes como cabeçalhos, tabelas e gráficos, antes de encaminhá-los para modelos de análise especializados. Essa técnica é inspirada em métodos de visão computacional utilizados em veículos autônomos.
Qual é o potencial dos PDFs para o treinamento de IA?
Pesquisadores da Hugging Face identificaram cerca de 1,3 bilhão de PDFs apenas no Common Crawl. O Instituto Allen para IA destacou que esses documentos podem fornecer trilhões de tokens de treinamento de alta qualidade, provenientes de relatórios governamentais, livros didáticos e artigos acadêmicos, dados que são cada vez mais valiosos para os desenvolvedores de IA.
Fonte original: Slashdot.