Estudo da Apple indica que LLMs são falhos e não conseguem realizar raciocínios básicos
Cientistas da empresa conduziram uma pesquisa para evidenciar que modelos como os desenvolvidos pela Meta e OpenAI ainda enfrentam dificuldades em raciocínios elementares. Os resultados apontam que pequenas alterações na formulação das perguntas podem gerar respostas significativamente diferentes, comprometendo a confiabilidade desses modelos.
A equipe investigou a “fragilidade” do raciocínio matemático, adicionando informações contextuais às perguntas que poderiam ser compreendidas por um humano, mas que não deveriam impactar o cálculo matemático fundamental. A alteração de até mesmo um único valor numérico em uma pergunta pode resultar em uma diminuição de até 65% na precisão da resposta.
Em um exemplo prático, um modelo foi desafiado a resolver a seguinte questão: “Oliver colhe 44 kiwis na sexta-feira. Depois, colhe 58 kiwis no sábado. No domingo, ele colhe o dobro da quantidade que pegou na sexta-feira.” A questão foi acompanhada de uma cláusula adicional que não afetava a resposta, afirmando que “cinco deles eram um pouco menores que a média”. No entanto, tanto o modelo da OpenAI quanto o Llama3-8b da Meta subtraíram os cinco kiwis menores do total, demonstrando falhas de lógica.
O estudo conclui que “não há como construir agentes confiáveis sobre essa base, onde mudar uma ou duas palavras de maneira irrelevante pode gerar respostas diferentes.”