Fala aí joelcarneiro
,
Tudo bem?
Achei bem legal o vídeo que você gravou, seguem algumas sugestões:
- Além de renomear (que você fez), é bom que no seu notebook contenha o significado de cada variável (um pouco mais detalhado que você fez no thal).
- Deu pra ver a importância disso quando no pandas_profiling não dava pra saber se 1 era homem ou mulher.
- É bom você explicar que a correlação que você menciona é a correlação linear, porém existem outras correlações aqui e aqui.
- Não sei se era o seu objetivo, mas seria legal explicar o porquê escolheu o Decision Tree / Random Forest aqui.
- Não vi se você mencionou a distribuição do seu target, pode e provavelmente é um dataset desbalanceado.
- Rapaz... sobre o Kfold, pelo que eu entenda ele divide o seu dataset em 100 partes, usa uma parte como teste e o restante como treino, prefiro usar o Shufflesplit que seria como um bootstrap que vai trazendo várias perspectivas aleatórias do dataset e como reage a elas, sem falar que você colocar qual % será de treino e de teste.