Executando verificação de segurança...
1

Estudo da Apple indica que LLMs são falhos e não conseguem realizar raciocínios básicos

Cientistas da empresa conduziram uma pesquisa para evidenciar que modelos como os desenvolvidos pela Meta e OpenAI ainda enfrentam dificuldades em raciocínios elementares. Os resultados apontam que pequenas alterações na formulação das perguntas podem gerar respostas significativamente diferentes, comprometendo a confiabilidade desses modelos.

A equipe investigou a “fragilidade” do raciocínio matemático, adicionando informações contextuais às perguntas que poderiam ser compreendidas por um humano, mas que não deveriam impactar o cálculo matemático fundamental. A alteração de até mesmo um único valor numérico em uma pergunta pode resultar em uma diminuição de até 65% na precisão da resposta.

Em um exemplo prático, um modelo foi desafiado a resolver a seguinte questão: “Oliver colhe 44 kiwis na sexta-feira. Depois, colhe 58 kiwis no sábado. No domingo, ele colhe o dobro da quantidade que pegou na sexta-feira.” A questão foi acompanhada de uma cláusula adicional que não afetava a resposta, afirmando que “cinco deles eram um pouco menores que a média”. No entanto, tanto o modelo da OpenAI quanto o Llama3-8b da Meta subtraíram os cinco kiwis menores do total, demonstrando falhas de lógica.

O estudo conclui que “não há como construir agentes confiáveis sobre essa base, onde mudar uma ou duas palavras de maneira irrelevante pode gerar respostas diferentes.”

Carregando publicação patrocinada...
3

Teoricamente, nem precisaria de estudos para isso. Muito da "Inteligência Artificial" que temos hoje é basicamente calculo e inferência estatística + probabilidade. Isso significa que não existe nenhuma declaração formal do que é fato e do que é regra onde podemos inferir com maior precisão.

Porém, já fiz diversos posts sobre outro tipo de inferência que é a inferência simbólica usado em linguagens como Prolog e Datadog

Gostaria de ressaltar que a abordagem de um modelo neuro-simbólico é similar a de um compilador de múltiplas partes.

O Backend desse tipo de modelo seria a inferência estatística, que normalmente é perfeita para generalizar algum conteúdo mesmo que ele seja invalido. Enquanto o Frontend desse tipo de modelo seria a inferência simbólica que por contar com a declaração exata de fatos e regras se torna perfeito para validar a saída da inferência estatística, podendo claramente gerar respostas diferentes e confiáveis.