A OpenAI lançou nesta quarta-feira, 22 de abril, o ChatGPT Images 2.0, nova versão de seu modelo de geração de imagens apresentada um ano após a estreia da primeira edição. Segundo a empresa, a atualização melhora o cumprimento de instruções detalhadas, o posicionamento de elementos na imagem, a relação entre objetos, a renderização de textos densos e a criação em diferentes proporções. De acordo com informações do Mobile Time, a novidade também inclui uma versão chamada Thinking, descrita pela companhia como capaz de raciocinar.
De acordo com o relato da OpenAI reproduzido pela publicação, o novo GPT Images entrega resultados com aparência menos associada a imagens geradas por inteligência artificial, por causa da maior precisão. A proposta é que o sistema siga instruções com mais fidelidade, preserve detalhes solicitados, represente elementos minuciosos que costumam desafiar modelos do tipo e produza composições mais densas, inclusive com restrições visuais mais sutis.
O que muda com o ChatGPT Images 2.0?
Entre os avanços citados estão a capacidade de lidar melhor com textos pequenos, iconografia e elementos de interface, além de gerar imagens em formatos variados. A OpenAI afirma ainda que o modelo pode usar seu conhecimento de mundo para preencher lacunas quando o comando dado pelo usuário for mais simples.
Outro destaque é o aprimoramento em estilos visuais distintos. Segundo a empresa, o modelo captura melhor características definidoras de fotografias, incluindo pequenas imperfeições que contribuem para o realismo. Também há menção a melhor consistência em cenas cinematográficas, pixel art, mangá e outras linguagens visuais, com ganhos em textura, iluminação e composição.
Como funciona a versão Thinking?
A versão Thinking é apresentada pela OpenAI como o principal diferencial do lançamento. De acordo com a empresa, ela introduz pela primeira vez a capacidade de raciocínio no modelo de imagens. Na prática, assinantes dos planos ChatGPT Plus, Pro e Business podem pesquisar informações em tempo real na web, criar múltiplas imagens diferentes a partir de um único comando e revisar os próprios resultados.
Segundo a descrição da companhia, ao ativar o modo Thinking o sistema passa a trabalhar de forma mais profunda e usa recursos de análise estrutural para executar o prompt com maior precisão. A ferramenta também pode gerar até oito imagens distintas de uma só vez, o que, de acordo com a OpenAI, pode facilitar projetos como sequências de histórias em quadrinhos ou conjuntos de designs sem montagem manual.
- Disponível a partir desta quarta-feira no ChatGPT
- Também acessível no Codex
- Integração liberada na API
- Recurso Thinking para assinantes Plus, Pro e Business
- Geração de até oito imagens em um único comando
Quais formatos e usos a OpenAI destaca?
O texto informa que o ChatGPT Images 2.0 agora trabalha com proporções de 3:1, no formato ultra-wide, até 1:3, no formato vertical estreito. Com isso, o modelo pode ser usado para peças como banners, slides de apresentação, telas de celular, marcadores de página e artes para redes sociais.
No Codex, a ferramenta é descrita como apta a criar ícones de interface, conceitos e protótipos, além de comparar opções com rapidez. A OpenAI afirma que o recurso pode ajudar a transformar ideias em produtos reais ou sites, embora o texto original não apresente exemplos concretos de uso fora dessa descrição da empresa.
Quais limitações foram informadas?
A própria OpenAI reconhece restrições no desempenho do modelo. Segundo a empresa, o ChatGPT Images 2.0 ainda encontra dificuldade para produzir imagens que dependam de uma compreensão mais rigorosa do mundo físico, como guias de origami, quebra-cabeças, cubo mágico e detalhes que precisem aparecer corretamente em superfícies escondidas, anguladas ou invertidas.
Também permanecem como desafio elementos densos ou repetitivos, como grãos de areia, além de rótulos e diagramas. O texto informa ainda que a data de corte de conhecimento da novidade é dezembro de 2025, o que delimita a base de informações usada pelo sistema fora do recurso de busca em tempo real mencionado para a versão Thinking.