[DATA SCIENCE] DAY: 021 - Investigando valores numéricos
🌴 Bom dia, boa tarde e boa noite pessoal, tudo bem?
🎯 Hoje iremos dar início ao nosso 3º capítulo chamado "Matemática e Estatística Básica" e falar sobre investigação de valores numéricos como o tema de hoje.
📝 Obs: Irei utilizar o jupyter notebook para a fácil visualização dos gráficos, mas fique a vontade para escolher outro ambiente de sua preferência. Uma sugestão caso não conheça nenhum, tem o colab do google.
1 - Primeiro, podemos usar a notação as
para abreviar o nome das bibliotecas e métodos que vamos importar e facilitar a escrita de código:
💻
import pandas as pd
📝 Obs:
- A linha
import pandas as pd
importa a biblioteca pandas para utilizar suas funções para manipular e analisar dados.
2 - Após a importação do pandas, vamos ler um arquivo CSV chamado "mtcars.csv" e através dos dados obtidos, vamos ler os dados iniciais:
🔍 Para baixar o arquivo que está sendo usado, clique aqui.
💻
caminho = 'O-caminho-do-seu-arquivo/mtcars.csv'
carros = pd.read_csv(caminho)
carros.columns = ['nomes','mpg','cyl','disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'qtd_marchas', 'carb']
carros.head()
📝 Obs: O que esse código faz???
- O caminho do arquivo é especificado como uma variável chamada
caminho
- O arquivo é lido usando a função
pd.read_csv
e armazenado em uma variável chamadacarros
- As colunas do conjunto de dados são renomeadas para nomes mais significativos usando a propriedade
columns
. - O método
head
é usado para exibir as primeiras linhas do conjunto de dados.
Saída do código:
Unnamed: 0 mpg cyl disp hp drat wt qsec vs am gear carb
0 Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
1 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
2 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
3 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
4 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
3 - Agora vamos utilizar o método sum()
,onde vai ser usado para calcular a soma de todos os valores em cada coluna do conjunto de dados carros
:
💻
carros.sum()
📝 Obs: O que esse código faz???
- Retorna um novo conjunto de dados com uma única linha que contém a soma de cada coluna.
- Funciona somente para colunas com valores numéricos. Se houver colunas com outros tipos de dados (como strings), essas colunas serão ignoradas.
Saída do código:
nomes Mazda RX4Mazda RX4 WagDatsun 710Hornet 4 Drive...
mpg 642.9
cyl 198
disp 7383.1
hp 4694
drat 115.09
wt 102.952
qsec 571.16
vs 14
am 13
qtd_marchas 118
carb 90
dtype: object
4 - Iremos repetir a questão acima, porem utilizando o parâmetro "axis=1", onde indica que a operação de soma deve ser realizada ao longo das linhas (em vez das colunas). Se você não especificar o valor de eixo, o padrão é 0 (soma ao longo das colunas):
💻
carros.sum(axis=1)
📝 Obs: O que esse código faz???
- O método
sum()
é usado para calcular a soma de valores. - O parâmetro
axis=1
especifica que a operação de soma deve ser realizada ao longo das linhas (em vez das colunas). - O resultado é uma nova série/coluna com a soma dos valores de cada linha do conjunto de dados
carros
.
Saída do código:
0 328.980
1 329.795
2 259.580
3 426.135
4 590.310
5 385.540
6 656.920
7 270.980
8 299.570
9 350.460
10 349.660
11 510.740
12 511.500
13 509.850
14 728.560
15 726.644
16 725.695
17 213.850
18 195.165
19 206.955
20 273.775
21 519.650
22 506.085
23 646.280
24 631.175
...
28 670.690
29 379.590
30 694.710
31 288.890
dtype: float64
5 - Vamos utilizar agora o método median()
, onde é usado para calcular a mediana de todos os valores em cada coluna do conjunto de dados carros
.
A mediana é o valor central de uma série de dados, ou seja, é o valor que divide os dados em duas partes iguais, metade dos valores está acima e metade está abaixo dele. Isso retornará um novo conjunto de dados com uma única linha que contém a mediana de cada coluna.
💻
carros.median()
📝 Obs: O que esse código faz???
- O método
median()
é usado para calcular a mediana dos valores em cada coluna do conjunto de dadoscarros
. - A mediana é o valor central dos dados, dividindo-os em duas partes iguais
- O resultado é um novo conjunto de dados com uma única linha que contém a mediana de cada coluna.
- Note que isso somente funciona para colunas com valores numéricos, colunas com outros tipos de dados serão ignoradas.
Saída do código:
mpg 19.200
cyl 6.000
disp 196.300
hp 123.000
drat 3.695
wt 3.325
qsec 17.710
vs 0.000
am 0.000
qtd_marchas 4.000
carb 2.000
dtype: float64
6 - Irei te mostrar também o método mean()
, onde é usado para calcular a média de todos os valores em cada coluna do conjunto de dados carros
:
💻
carros.mean()
📝 Obs: O que esse código faz???
- O método
mean()
é usado para calcular a média dos valores em cada coluna do conjunto de dadoscarros
. - A média é calculada como a soma dos valores dividido pelo número de valores
- O resultado é um novo conjunto de dados com uma única linha que contém a média de cada coluna.
Saída do código:
mpg 20.090625
cyl 6.187500
disp 230.721875
hp 146.687500
drat 3.596563
wt 3.217250
qsec 17.848750
vs 0.437500
am 0.406250
qtd_marchas 3.687500
carb 2.812500
dtype: float64
7 - Por último, vamos ver o método max()
, onde é usado para encontrar o valor máximo em cada coluna do conjunto de dados carros
:
💻
carros.max()
📝 Obs: O que esse código faz???
- O método
max()
é usado para encontrar o valor máximo em cada coluna do conjunto de dadoscarros
. - O resultado é um novo conjunto de dados com uma única linha que contém o valor máximo de cada coluna.
Saída do código:
nomes Volvo 142E
mpg 33.9
cyl 8
disp 472
hp 335
drat 4.93
wt 5.424
qsec 22.9
vs 1
am 1
qtd_marchas 5
carb 8
dtype: object
Uma curiosidade importante é que podemos usar o método idxmax() para encontrar o índice da linha com o valor máximo da coluna "mpg". Isso retornará um índice numérico correspondente à linha com o valor máximo:
💻
mpg = carros.mpg
mpg.idxmax()
📝 Obs: O que esse código faz???
- A coluna "mpg" é atribuída a uma nova variável chamada
mpg
. - O método
idxmax()
é usado para encontrar o índice da linha com o valor máximo da colunampg
. - O resultado é um índice numérico correspondente à linha com o valor máximo da coluna
mpg
. - Isso é útil para localizar a linha específica (ou registro) com o maior valor de uma determinada coluna.