Uma análise recente revelou que o SWE-bench Verified, uma ferramenta utilizada para medir o progresso em codificação de ponta, está cada vez mais contaminada e falha em sua função. O estudo identificou testes defeituosos e vazamentos de treinamento como principais problemas. Como solução, foi recomendada a adoção do SWE-bench Pro como alternativa mais eficaz.
De acordo com informações do OpenAI Blog, a necessidade de uma ferramenta mais precisa é crucial para acompanhar o avanço tecnológico no campo da codificação.
— Publicidade —
Google AdSense • Slot in-article