Modelos de IA fracassam em benchmark matemático mais difícil do mundo
O FrontierMath, desenvolvido pela Epoch AI, reúne centenas de problemas matemáticos originais de nível avançado que exigem raciocínio profundo e criatividade. Em uma avaliação que incluiu seis sistemas de IA, como GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet, nenhum deles conseguiu resolver mais de 2% dos desafios.
Diferentemente de benchmarks tradicionais, como GSM-8K e MATH, onde os modelos atuais alcançam mais de 90% de acertos, o FrontierMath evita a chamada “contaminação de dados”, problema comum quando modelos são treinados em questões similares às dos testes. Todos os problemas dessa nova coleção são inéditos, criados para demandar trabalho matemático genuíno, afastando a possibilidade de resolução por memorização ou reconhecimento de padrões.
As questões abrangem temas como teoria computacional dos números e geometria algébrica abstrata, exigindo horas ou até dias de trabalho de matemáticos humanos. Segundo o matemático Fields Terence Tao, esses problemas são “extremamente desafiadores”, tornando o benchmark uma medida ideal para testar o raciocínio avançado da IA. As respostas são intencionalmente complexas, com soluções que têm menos de 1% de chance de serem adivinhadas sem o raciocínio adequado.
Matthew Barnett, pesquisador de IA, reforça a dificuldade do FrontierMath, afirmando que quase ninguém no mundo conseguiria pontuar acima de 0%, mesmo com um dia inteiro para resolver cada problema. Ele especula que, no futuro, se a IA superar esse teste, viveremos ao lado de “seres inteligentes completamente distintos”, compartilhando a Terra com mentes artificiais tão capazes quanto as humanas.
O FrontierMath continuará a ser expandido pela Epoch AI, com novos problemas sendo adicionados para manter o benchmark relevante e desafiador. Pesquisadores planejam monitorar regularmente o desempenho dos modelos, tornando esse teste um marco crucial no progresso em direção à IA avançada.