Executando verificação de segurança...
15

O cientista de dados do século XIX

Motivação

Há algumas semanas, recebi o desafio de apresentar um seminário sobre ciência de dados, de uma disciplina da faculdade. Dentre vários artigos científicos lidos, com diversas aplicações a diferentes áreas, percebi juntamente com meu grupo, que seria um tanto difícil se destacar das demais apresentações, já que por mais que esses artigos fossem aplicados a diferentes áreas, como engenharia, medicina, geologia e etc., as metodologias utilizadas eram sempre as mesmas: IA (Inteligência Artificial), ML (Machine Learning), Redes Neurais, Regressão, Classificação entre outros.

Ciência de Dados

Tá, sabemos que a ciência de dados está bastante relacionada com IA's, ML, redes neurais e tals, mas ciência de dados é somente isso mesmo?
Por isso, resolvemos buscar diferentes definições de ciência de dados.

Ciência de dados é uma área interdisciplinar, que localiza-se em uma interface entre a estatística e a ciência da computação, que utiliza o método científico; processos, algoritmos e sistemas, para extrair conhecimento e tomar decisões a partir de dados dos diversos tipos[...]

A ciência de dados é um subconjunto da IA e se refere mais às áreas sobrepostas de estatísticas, métodos científicos e análise de dados, todas as quais são usadas para extrair significados e insights dos dados.

A ciência de dados é o estudo dos dados para extrair insights significativos para os negócios.[...]

E dentre estas definições, a que achamos mais válida foi a definição da Amazon. Ao pesquisarmos mais por esta definição, percebemos que é a definição do PhD. Murtaza Haider, escritor de livros como o "Getting Started with Data Science" (ISBN:978-0133991024). No livro, ele expande ainda mais esta definição e ainda explica que:

A maior característica do cientista de dados, é a curiosidade.

Ou seja, tendo como base essas definições, poderíamos desenvolver um projeto de ciência de dados que não necessariamente envolvesse IA's, ML e coisas do tipo.

Vale ressaltar que uma definição não invalida outra

A solução

Ao eliminar metodos computacionais, um leque grande de artigos se abriu que se encaixavam com a definição. Vários deles datados de quando nem sequer computadores existiam. Dentre eles, escolhemos falar de John Snow - e não é aquele do seriado Game of Thrones haha -.

Um pouco de história

John Snow
Resumidamente: Um surto de cólera atingia a Inglaterra desde os anos 1840, na época, acreditava-se que cólera era transmitida pelo ar. Em 1854, um médico chamado John Snow que já pesquisava sobre a doença desde 1849, resolveu investigar um bairro da cidade de Londres. Lá, ele passou de casa em casa, fazendo uma pesquisa de campo, para descobrir onde mais/menos pessoas haviam sido contaminadas e falecidas. Para isso, ele pegou o mapa da cidade e para cada morto, ele marcava um risco no lugar, para assim ter uma espécie de mapa de distribuição.
Mapa
Com o mapa em mãos, ele procurou corelações entre os locais com mais presença da doença, e buscou entender o que causava os outliers (pontos fora da curva, valores atípicos). E concluíu que a correlação entre eles era um poço d'água, no qual todos os contaminados utilizavam frequentemente. Com isso ele mandou fechar o poço, fazendo com que em pouco tempo o número de novos contaminados abaixasse e conseguiu provar sua tese de que a cólera era transmitida pela água e não pelo ar.

Conclusão

John Snow, um médico, que no século XIX foi curioso a ponto de criar uma base de dados suficiente para extrair insights significativo para ajudar um bairro a tomar a melhor decisão - posteriormente, toda uma nação. Ou seja, tendo como base a definição de Murtaza Haider, John Snow pode ser facilmente considerado um cientista de dados.

Bônus

Podemos perceber também, que ele utilizou técnicas de Visualização de Dados, que por mais que seja um termo contemporâneo, que surge por volta de 1950, encaixa-se perfeitamente em seu método de utilizar um mapa como fonte diretor de insights, mas isso seria tema para outro post.

Referências

Recomendo a leitura deste post da BBC:
O médico que descobriu como a cólera se espalha

Carregando publicação patrocinada...