Executando verificação de segurança...
1

OpenAI anuncia modelos de raciocínio “o3”

A OpenAI anunciou a família de modelos de raciocínio “o3”, sucessora do “o1”. Essa nova linha inclui os modelos “o3” e “o3-mini”. A empresa optou por não nomear o modelo como “o2” para evitar possíveis conflitos com a operadora de telecomunicações britânica O2.

Embora os modelos ainda não estejam amplamente disponíveis, pesquisadores de segurança podem se inscrever para acessar uma prévia do “o3-mini” a partir de hoje. A prévia do modelo “o3” será liberada posteriormente, em uma data ainda não especificada. Segundo Sam Altman, CEO da OpenAI, o “o3-mini” deve ser lançado oficialmente no final de janeiro, seguido pelo “o3” em um momento subsequente.

A principal inovação do “o3” em relação ao “o1” é a possibilidade de ajustar o tempo de raciocínio. Os modelos podem operar em modos de computação baixa, média ou alta, o que reflete diretamente no tempo e na qualidade do desempenho. Configurações mais altas resultam em maior eficácia na execução de tarefas.

De acordo com a OpenAI, o “o3” é mais um avanço em direção à inteligência artificial geral. No ARC-AGI, um teste que avalia a capacidade de uma IA adquirir novas habilidades fora dos dados de treinamento, o “o3” obteve 87,5% de acerto na configuração de computação alta. Mesmo na configuração de computação baixa, o modelo conseguiu triplicar o desempenho do “o1”. Por outro lado, François Chollet, co-criador do ARC-AGI, destacou que o “o3” ainda apresenta falhas em “tarefas muito fáceis” nesse benchmark.

Internamente, a OpenAI afirma que o modelo supera o “o1” em 22,8 pontos percentuais no SWE-Bench Verified, um benchmark voltado para tarefas de programação. Além disso, o “o3” demonstrou resultados positivos em outros testes:

  • 96,7% no American Invitational Mathematics Exam de 2024, errando apenas uma questão;
  • 87,7% no GPQA Diamond, composto por questões de biologia, física e química de nível pós-graduação;
  • Novo recorde no benchmark Frontier Math da EpochAI, resolvendo 25,2% dos problemas – um marco expressivo, já que nenhum outro modelo superou 2%.
Carregando publicação patrocinada...
2

Foi um pouco de marketing também, o O1 facilmente poderia ser chamado de 01.5 ou O1+. E daria pra colocar sim O2 seria fácil justificar ou OII ou qualquer outro artificio.

Mas o nome O3 parece um pulo gigante quando você olha pela primeira vez.