Exercícios da Alura sobre estatística com Python: frequências e medidas.
- A identificar a versão de uma biblioteca do Python.
- A ler um
dataset
no formato CSV e criar umDataFrame pandas
, com o conteúdo deste dataset. - A identificar e classificar as variáveis de um dataset como
quantitativas ou qualitativas.
- Que as
variáveis qualitativas
se dividem emordinais e nominais.
- Que as
variáveis quantitativas
se dividem emdiscretas e contínuas.
- A criar distribuições de frequências (tabelas de frequências) com a função
value_counts() do pandas.
- A criar distribuições de frequências, com o cruzamento de duas variáveis, utilizando a função
crosstab() do pandas.
- A criar distribuições de frequências, com classes personalizadas, utilizando as funções
value_counts() e cut() conjuntamente.
- A utilizar a
regra de Sturges
para obter um número de classes ótimo para determinado tamanho de amostra. - A plotar o
histograma
, que é a representação gráfica de uma distribuição de frequências.
- A calcular as principais medidas de tendência central:
média aritmética, mediana e moda.
- A identificar características importantes de uma distribuição, como a
presença de assimetria e sua direção
a partir da relação entre as medidas de tendência central.
Nesta aula, aprendemos:
- A obter os
quartis, decis e percentis
de uma distribuição Também conhecidas como medidas separatrizes, pois dividem uma distribuição em partes iguais. - A construir e interpretar um
boxplot
, com a utilização dosquartis.
- A obter três medidas de dispersão importantes.
O desvio médio absoluto, a variância e o desvio padrão.
- Que, embora as medidas de posição forneçam uma sumarização bastante importante dos dados, elas
podem não ser suficientes
para caracterizar conjuntos distintos, especialmente quando as observações de determinada distribuição apresentaremdados muito dispersos
Por isso, para complementar nossas análises e poder caracterizar melhor o conjunto de dados, utilizamos asmedidas de dispersão.