Empresa divulga benchmark que modelos avançados de IA não conseguem superar
A Arc Prize Foundation anunciou o ARC-AGI-2, um novo benchmark projetado para avaliar a inteligência geral dos principais modelos de IA.
O teste consiste em problemas do tipo quebra-cabeça, nos quais a IA deve identificar padrões visuais a partir de uma coleção de quadrados de diferentes cores e gerar a grade de “resposta” correta. Os desafios foram elaborados para forçar a IA a se adaptar a situações inéditas.
Os resultados indicam que os modelos de raciocínio o1-pro da OpenAI e R1 da DeepSeek obtiveram pontuações entre 1% e 1,3%. Já modelos sem capacidades de raciocínio, como o GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, marcaram cerca de 1%.
Em contraste, mais de 400 pessoas que realizaram o teste apresentaram um desempenho 60% superior ao das IAs.
Na versão anterior do benchmark, o ARC-AGI-1, o modelo o3 da OpenAI obteve a melhor pontuação, alcançando 75,7%, enquanto no ARC-AGI-2 sua pontuação foi reduzida a apenas 4%.