Estudo da Apple indica que LLMs são falhos e não conseguem realizar raciocínios básicos · NewsletterOficial

Cientistas da empresa conduziram uma pesquisa para evidenciar que modelos como os desenvolvidos pela Meta e OpenAI ainda enfrentam dificuldades em raciocínios elementares. Os resultados apontam que pequenas alterações na formulação das perguntas podem gerar respostas significativamente diferentes, comprometendo a confiabilidade desses modelos.

A equipe investigou a “fragilidade” do raciocínio matemático, adicionando informações contextuais às perguntas que poderiam ser compreendidas por um humano, mas que não deveriam impactar o cálculo matemático fundamental. A alteração de até mesmo um único valor numérico em uma pergunta pode resultar em uma diminuição de até 65% na precisão da resposta.

Em um exemplo prático, um modelo foi desafiado a resolver a seguinte questão: “Oliver colhe 44 kiwis na sexta-feira. Depois, colhe 58 kiwis no sábado. No domingo, ele colhe o dobro da quantidade que pegou na sexta-feira.” A questão foi acompanhada de uma cláusula adicional que não afetava a resposta, afirmando que “cinco deles eram um pouco menores que a média”. No entanto, tanto o modelo da OpenAI quanto o Llama3-8b da Meta subtraíram os cinco kiwis menores do total, demonstrando falhas de lógica.

O estudo conclui que “não há como construir agentes confiáveis sobre essa base, onde mudar uma ou duas palavras de maneira irrelevante pode gerar respostas diferentes.”

Teoricamente, nem precisaria de estudos para isso. Muito da "Inteligência Artificial" que temos hoje é basicamente calculo e inferência estatística + probabilidade. Isso significa que não existe nenhuma declaração formal do que é fato e do que é regra onde podemos inferir com maior precisão.

Porém, já fiz diversos posts sobre outro tipo de inferência que é a inferência simbólica usado em linguagens como Prolog e Datadog

Gostaria de ressaltar que a abordagem de um modelo neuro-simbólico é similar a de um compilador de múltiplas partes.

O Backend desse tipo de modelo seria a inferência estatística, que normalmente é perfeita para generalizar algum conteúdo mesmo que ele seja invalido. Enquanto o Frontend desse tipo de modelo seria a inferência simbólica que por contar com a declaração exata de fatos e regras se torna perfeito para validar a saída da inferência estatística, podendo claramente gerar respostas diferentes e confiáveis.