[DATA SCIENCE] DAY: 018 - Visualizando Box Plots
👨💼 Bom dia, boa tarde e boa noite pessoal, tudo bem?
📊 Hoje iremos aprender como criar e visualizar Box Plots.
O boxplot é uma ferramenta gráfica que mostra a distribuição dos dados. Ele mostra a mediana (a mediana é a medida de tendência central, que divide um conjunto de dados ordenado em duas metades), os quartis (os quartis dividem um conjunto de dados ordenados em quartos) e os valores máximo e mínimo. Os pontos fora da caixa são outliers, ou seja, valores fora da distribuição. Eles são mostrados como pontos individuais no gráfico.
significado da web.
📝 Obs: Irei utilizar o jupyter notebook para a fácil visualização dos gráficos, mas fique a vontade para escolher outro ambiente de sua preferência. Uma sugestão caso não conheça nenhum, tem o colab do google.
1 - Primeiro, podemos usar a notação as
para abreviar o nome das bibliotecas que vamos importar e facilitar a escrita de código:
💻
import pandas as pd
from matplotlib import pyplot as plt
from matplotlib import rcParams
import seaborn as sns
📝 Obs:
- A primeira linha
import pandas as pd
importa a biblioteca pandas para utilizar suas funções para manipular e analisar dados. - A segunda linha
from matplotlib import pyplot as plt
importa o módulo pyplot da biblioteca matplotlib para criar gráficos. - A terceira linha
from matplotlib import rcParams
importa as configurações de parâmetros padrão da biblioteca matplotlib. - A quarta linha
import seaborn as sns
importa a biblioteca seaborn que fornece uma interface mais fácil para criar gráficos estatísticos atraentes e informativos, e também estende as funcionalidades de matplotlib.
Essas linhas de código preparam as bibliotecas necessárias para serem utilizadas na visualização de dados.
2 - Agora vamos ajustar as configurações de visualização para se adequar ao ambiente do Jupyter Notebook e estabelecer um estilo de gráfico padrão para ser usado ao longo do código:
💻
%matplotlib inline
rcParams['figure.figsize'] = 5, 4
sns.set_style('whitegrid')
📝 Obs:
-
%matplotlib inline
: Essa linha de código é usada para exibir gráficos dentro do notebook Jupyter. Isso significa que, em vez de abrir uma nova janela para exibir o gráfico, ele será exibido diretamente no notebook. -
rcParams['figure.figsize'] = 5, 4
: Essa linha de código define o tamanho da figura como 5x4. Isso significa que a largura será de 5 unidades e a altura será de 4 unidades. -
sns.set_style('whitegrid')
: Essa linha de código é parte do seaborn, uma biblioteca de visualização de dados baseada em Matplotlib. Ele define o estilo de grade como branco. Isso adiciona linhas brancas às suas visualizações de dados, o que pode ajudar a tornar os gráficos mais legíveis e fáceis de interpretar.
3 - Agora após as configurações, iremos gerar dois gráficos de box plots para visualizar a distribuição dos dados de formas diferentes:
carros.boxplot(column='mpg', by='am')
📝 Obs: O que esse código faz???
- O código está criando um boxplot para a coluna
mpg
de uma tabela de dados chamadacarros
. - O boxplot é dividido entre transmissão automática e manual, usando a coluna
am
como critério de divisão. - O boxplot mostra a distribuição dos dados, incluindo mediana, quartis, valor máximo e mínimo.
- Os pontos fora da caixa são outliers, ou seja, valores fora da distribuição.
- O objetivo é comparar como a distribuição dos dados de mpg é diferente entre transmissão automática e manual.
Gráfico gerado:
Agora iremos visualizar o segundo gráfico utilizando os dados da coluna "wt" , onde estão sendo divididos entre transmissão automática e manual. Com isso, o boxplot mostra como a distribuição dos dados de wt
é diferente entre essas duas categorias:
carros.boxplot(column='wt', by='am')
📝 Obs: O que esse código faz???
- O código está criando um boxplot para a coluna
wt
de uma tabela de dados chamadacarros
. - O boxplot é dividido entre transmissão automática e manual, usando a coluna
am
como critério de divisão. - O boxplot mostra a distribuição dos dados, incluindo mediana, quartis, valor máximo e mínimo.
- Os pontos fora da caixa são outliers, ou seja, valores fora da distribuição.
- O objetivo é comparar como a distribuição dos dados de
wt
é diferente entre transmissão automática e manual.
Gráfico gerado:
Por último, vamos criar um boxplot usando a biblioteca seaborn
, para comparar a coluna mpg
com a coluna am
na tabela de dados carros
:
sns.boxplot(x='am', y='mpg', data=carros, palette='hls')
📝 Obs: O que esse código faz???
- O boxplot está comparando as colunas
mpg
eam
na tabela de dadoscarros
. - A variável
x
está definida comoam
e a variávely
está definida comompg
. - Os dados são passados para o gráfico através da variável
data
comocarros
. - Uma paleta de cores
hls
é definida. - O objetivo é mostrar como a distribuição da coluna
mpg
varia entre transmissão automática e manual.
Gráfico gerado: