Modelos de IA fracassam em benchmark matemático mais difícil do mundo · NewsletterOficial

O FrontierMath, desenvolvido pela Epoch AI, reúne centenas de problemas matemáticos originais de nível avançado que exigem raciocínio profundo e criatividade. Em uma avaliação que incluiu seis sistemas de IA, como GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet, nenhum deles conseguiu resolver mais de 2% dos desafios.

Diferentemente de benchmarks tradicionais, como GSM-8K e MATH, onde os modelos atuais alcançam mais de 90% de acertos, o FrontierMath evita a chamada “contaminação de dados”, problema comum quando modelos são treinados em questões similares às dos testes. Todos os problemas dessa nova coleção são inéditos, criados para demandar trabalho matemático genuíno, afastando a possibilidade de resolução por memorização ou reconhecimento de padrões.

As questões abrangem temas como teoria computacional dos números e geometria algébrica abstrata, exigindo horas ou até dias de trabalho de matemáticos humanos. Segundo o matemático Fields Terence Tao, esses problemas são “extremamente desafiadores”, tornando o benchmark uma medida ideal para testar o raciocínio avançado da IA. As respostas são intencionalmente complexas, com soluções que têm menos de 1% de chance de serem adivinhadas sem o raciocínio adequado.

Matthew Barnett, pesquisador de IA, reforça a dificuldade do FrontierMath, afirmando que quase ninguém no mundo conseguiria pontuar acima de 0%, mesmo com um dia inteiro para resolver cada problema. Ele especula que, no futuro, se a IA superar esse teste, viveremos ao lado de “seres inteligentes completamente distintos”, compartilhando a Terra com mentes artificiais tão capazes quanto as humanas.

O FrontierMath continuará a ser expandido pela Epoch AI, com novos problemas sendo adicionados para manter o benchmark relevante e desafiador. Pesquisadores planejam monitorar regularmente o desempenho dos modelos, tornando esse teste um marco crucial no progresso em direção à IA avançada.

Uma revelação que faz juz às palavras que o Fábio Akita deixou (não encontrei as outras) em uma de suas anotações na sua máquina do tempo, lá em 19 de junho de 2023:

(...) porque como já expliquei, essa ¨inteligência não é inteligente, só cospe probabilidades.

Porém, sempre fica aquela dúvida: Esse benchmark veio a público para divulgar um resultado controlado, ou seja, para "acalmar" um pouco os medos e ânimos da sociedade em meio a tantas discussões a respeito dos poderes que esta criação está adquirindo? Não sabemos se é exatamente isso, mas o que aconteceria se, ao invés de fornecerem perguntas e respostas (exemplos) para a IA tentarem ensiná-la o ato de aprender a partir do conhecimento adquirido? Vejo que a IA possui uma grande caixa de ferramentas (conhecimento), faltando um pouco de criatividade para combinar essas ferramentas para construção de novidades (conhecimento inexistente). Nesta era de conhecimento é poder, para fins militares, os sistemas inteligentes dedicados sabem tomar decisões inteligentes, classificados como segredo bem guardado, longe das vistas desta geração que ainda está surpresa com os GPTs simplesmente por parte dela ignorar aprender como ela funciona.