O novo modelo ChatGPT Images 2.0, da OpenAI, chamou atenção por sua capacidade de gerar texto legível dentro de imagens, algo que historicamente era um ponto fraco dos geradores visuais por inteligência artificial. A avaliação foi publicada nesta segunda-feira, 21 de abril de 2026, em reportagem do TechCrunch, que comparou o desempenho do novo sistema com modelos anteriores e destacou avanços em tarefas como criação de cardápios, peças de marketing e tirinhas em vários painéis.
De acordo com informações do TechCrunch, o modelo consegue produzir, por exemplo, um cardápio de comida mexicana com texto suficientemente natural para passar despercebido por clientes, algo que, há cerca de dois anos, ainda resultava em erros evidentes de ortografia e palavras inventadas em sistemas do tipo. A publicação observou que, no passado, era comum ver saídas com termos incorretos em vez de nomes reais de pratos.
Por que geradores de imagem costumavam errar tanto ao escrever palavras?
A dificuldade em renderizar texto de forma correta em imagens tem relação com a arquitetura usada por muitos sistemas anteriores. Segundo a reportagem, geradores desse tipo historicamente enfrentaram problemas para soletrar porque operavam com modelos de difusão, que reconstruíam imagens a partir de ruído visual. Nesse processo, palavras e letras ocupam uma parte muito pequena dos pixels, o que dificultava o aprendizado preciso desses elementos.
O texto recupera uma declaração dada ao TechCrunch em 2024 por Asmelash Teka Hadgu, fundador e CEO da Lesan AI, para explicar esse limite técnico. Em citação reproduzida pela reportagem, ele afirmou:
“The diffusion models […] are reconstructing a given input. We can assume writings on an image are a very, very tiny part, so the image generator learns the patterns that cover more of these pixels.”
O que pode explicar o avanço do Images 2.0?
Pesquisadores passaram a testar outros mecanismos de geração de imagens, como modelos autorregressivos, que fazem previsões sobre como a imagem deve ser e funcionam de modo mais próximo ao de modelos de linguagem. Ainda assim, a OpenAI não detalhou, em uma coletiva à imprensa nesta semana, qual é exatamente a arquitetura usada no ChatGPT Images 2.0. Segundo o TechCrunch, a empresa recusou-se a responder essa pergunta.
Mesmo sem informar a base técnica do sistema, a OpenAI disse que o novo modelo conta com “capacidades de raciocínio”, expressão usada pela empresa para descrever recursos como busca na web, geração de múltiplas imagens a partir de um único comando e checagem das próprias criações. De acordo com a reportagem, essas funções permitem criar materiais de marketing em diferentes formatos e também histórias em quadrinhos com vários quadros.
Quais recursos a OpenAI destacou no novo modelo?
Entre os pontos citados pela empresa, está uma compreensão mais forte da renderização de textos não latinos, em idiomas como japonês, coreano, hindi e bengali. A OpenAI também informou que o conhecimento do modelo vai até dezembro de 2025, o que pode afetar a precisão de pedidos relacionados a notícias mais recentes.
Em comunicado reproduzido pelo TechCrunch, a empresa descreveu o Images 2.0 desta forma:
“Images 2.0 brings an unprecedented level of specificity and fidelity to image creation. It can not only conceptualize more sophisticated images, but it actually brings that vision to life effectively, able to follow instructions, preserve requested details, and render the fine-grained elements that often break image models: small text, iconography, UI elements, dense compositions, and subtle stylistic constraints, all at up to 2K resolution.”
Segundo a reportagem, essas capacidades tornam a geração de imagens menos imediata do que uma pergunta comum feita ao ChatGPT. Ainda assim, criações mais complexas, como uma tirinha com vários painéis, levariam apenas alguns minutos para ficar prontas.
Quando o Images 2.0 estará disponível?
A OpenAI informou que todos os usuários de ChatGPT e Codex terão acesso ao Images 2.0 a partir de terça-feira. Usuários pagos poderão gerar resultados mais avançados. A empresa também disponibilizará a API gpt-image-2, com preços definidos conforme a qualidade e a resolução das imagens geradas.
Com isso, o avanço relatado pelo TechCrunch reforça uma mudança importante no estágio atual dos geradores de imagem por inteligência artificial: a produção de texto dentro de peças visuais, antes facilmente identificável como artificial, passa a se aproximar mais de materiais utilizáveis em contextos práticos, como cardápios, interfaces e peças promocionais.