Executando verificação de segurança...
2

OpenAI financiou secretamente benchmark associado ao modelo o3

A OpenAI está enfrentando questionamentos sobre o envolvimento no desenvolvimento do benchmark FrontierMath, utilizado para avaliar o desempenho de modelos de IA, incluindo o de raciocínio o3. A preocupação gira em torno da possibilidade de o modelo ter sido treinado com os dados do benchmark, comprometendo a validade de suas altas pontuações.

Além de financiar a criação do FrontierMath, a OpenAI teve acesso ao conjunto de dados de benchmarking, fato que foi ocultado dos matemáticos responsáveis pelo desenvolvimento do projeto. A Epoch AI, proprietária do benchmark, revelou o financiamento da OpenAI apenas na versão final de seu artigo, omitindo qualquer menção ao envolvimento da empresa em versões anteriores.

Embora o objetivo do FrontierMath seja testar modelos de forma imparcial, o acesso da OpenAI aos dados levantou dúvidas sobre a independência do processo, já que conhecer previamente perguntas e respostas poderia influenciar os resultados. Tamay Besiroglu, diretor associado da Epoch AI, confirmou que a OpenAI teve acesso a parte dos dados, mas destacou que um conjunto separado foi mantido confidencial para permitir avaliações independentes. Ele também afirmou que um acordo verbal proibia o uso desses dados no treinamento do modelo. Besiroglu admitiu que deveria ter negociado com mais rigor para garantir transparência com os contribuintes do benchmark desde o início.

Ellio Glazer, matemático líder da Epoch AI, também confirmou que a OpenAI utilizou o conjunto de dados para avaliar o modelo o3. No entanto, ele defendeu a legitimidade das pontuações obtidas, assegurando que a Epoch AI está conduzindo uma análise independente para verificar se o modelo foi ou não treinado com os dados do FrontierMath.

Carregando publicação patrocinada...