OpenAI lança benchmark para avaliar desenvolvimento de software em modelos de IA
O SWE-Lancer inclui mais de 1.400 tarefas extraídas da plataforma de freelancers Upwork, totalizando 1 milhão de dólares em pagamentos reais.
Ele contém tanto tarefas independentes de engenharia de software — variando de correções de bugs de 50 dólares a implementações de recursos avaliadas em 32 mil dólares — quanto desafios gerenciais, nos quais os modelos de IA precisam escolher entre diferentes propostas técnicas.
As tarefas de engenharia são avaliadas por meio de testes de ponta a ponta, que foram verificados por engenheiros experientes, enquanto as decisões gerenciais são comparadas com as escolhas feitas por gerentes humanos.
De acordo com a OpenAI, os modelos de ponta ainda não conseguem resolver a maioria das tarefas, mas a empresa não forneceu mais detalhes ou métricas específicas sobre essa limitação.