Data Science é mais antigo do que você pensa!
Eu fico abismado que um pastor e matemático inglês, Thomas Bayes (1701–1761), tenha escrito um teorema que mais tarde foi revisado/editado por Richard Price (Glamorgan, 23 de fevereiro de 1723 – Londres, 19 de abril de 1791). E eu, em pleno 2024, com acesso a diversos estudos, vídeos e explicações, ainda tenho dificuldades em entender profundamente essa conclusão que ambos tiveram (e não nego isso).
Você conhece o conceito? Não? Vem cá que eu vou tentar te explicar:
Imagine que você está tentando adivinhar se um e-mail é spam ou não com base em algumas palavras que aparecem nele. O Teorema de Naive Bayes ajuda você a fazer isso usando probabilidade.
Passo 1: Coleta de Dados
Primeiro, você coleta muitos e-mails e observa quais são spam e quais não são. Em cada e-mail, você também conta quantas vezes certas palavras aparecem.
Passo 2: Cálculo de Probabilidades
Você calcula a probabilidade de um e-mail ser spam ou não com base na presença de certas palavras. Por exemplo, se a palavra "promoção" aparece com frequência em e-mails de spam, a presença dessa palavra aumenta a probabilidade de um e-mail ser spam.
Passo 3: Aplicação do Teorema de Bayes
O Teorema de Naive Bayes combina essas probabilidades para calcular a probabilidade de um novo e-mail ser spam ou não, dado que ele contém certas palavras.
"Naive" (ingênuo) porque assume que a presença de cada palavra é independente das outras, o que simplifica muito os cálculos.
Exemplo Simplificado
Se um e-mail contém as palavras "promoção" e "grátis", e sabemos que essas palavras aparecem mais frequentemente em e-mails de spam, o Teorema de Naive Bayes nos ajudará a calcular que esse novo e-mail tem uma alta probabilidade de ser spam.
Resumindo, Naive Bayes é uma maneira de usar estatísticas para fazer previsões com base em dados que você já tem, mesmo que seja de uma forma bem simples.
Espero ter ao menos atiçado a curiosidade de vocês e, quem quiser, use os comentários para continuarmos o papo.