luisERH / Dominando-Pandas

Este repositório está destinado ao processo de aprendizagem da biblioteca Pandas.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool


🐼 Dominando Pandas

O Pandas é uma enorme biblioteca python utilizada para manipulação, leitura e visualização de dados, oferecendo alto desempenho para pequenas quantidade de dados, quanto para enormes. por padrão o pandas faz a conversão de dados para um objeto chamado Dataframe, armazenando o conteúdo na memória RAM da sua máquina para que os dados possam ser manipulados sem sofrer alteração no arquivo/variável inicial.


Pandas é robusto e de fácil adaptação, com destaque na conversão de dados, facilmente lêmos um arquivo e convertemos em um Dataframe, assim como facilmente o transformamos o Dataframe em um arquivo estático para armazenamento.

💿Como Instalar?

Utilizando Pypi:

pip install pandas

Utilizando o ambiente Anaconda:

conda install pandas 

⌨️ Iniciando com pandas:

Para iniciarmos, podemos criar nossos dataframes utilizando os tipos de variáveis que estamos habituados a utilizar, como é o caso de dicionários (representação de chave e valor similares à arquivos JSON), assim como as famosas listas.

[01]: import pandas  as pd
[02]: data = {
'Estados': ['Pará', 'Rio de Janeiro', 'São Paulo'],
'Capital': ['Belém', 'Rio de Janeiro', 'São Paulo'],
'População': [143474, 6320000,12180000]
}
[03]: df_estados = pd.DataFrame(data) # Transformará a variável "data" do tipo dict em um dataframe
      df_estados

BeTheHero

[04]:  comidas = ["maçã","banana","abacate","uva","cereja","pêra"]
[05]:  df_comidas = pd.DataFrame(comidas, columns=["Comidas"]) # Atribuindo nome de colunas com o parâmetro "columns"
       df_comidas

BeTheHero


🔎 Análise de dados com Pandas:

Em geral, quando pegamos uma base de dados nova, precisamos verificar com que tipo de dados estamos lidando, para isto, iremos analizar uma base de dados famosa sobre passageiros do Titanic extraída da plataforma Kaggle.

[06]: df = pd.read_csv("titanic_data.csv") # Certifique-se que o arquivo está no mesmo diretório que seu código
      df.head(5) # Retorna as primeiras linhas do dataframe (por padrão 5)

BeTheHero

Para começar nossa análise, usaremos o método describe que retorna dados estatísticos sobre o Dataframe

[07]: df.describe()

BeTheHero

  • Para informações básicas:
df.shape #Retorna uma tupla contendo a quantidade de linhas e colunas do DataFrame
df.index #Descrição do Index
df.columns #Colunas presentes no DataFrame
df.count() #Contagem de dados não-nulos
  • Para resumo dos dados:
df.sum() #Soma dos valores de um DataFrame
df.min() #Menor valor de um DataFrame
df.max() #Maior valor
df.mean() #Média dos valores
df.median() #Mediana dos valores
  • Para Ordenação dos dados:
df.sort_values(by="Name") #Ordenando em ordem crescente
df.sort_values(by="Name",ascending=False) #Ordenando em ordem decrescente

🖥️ Dataframe avançado:

Além de métodos para análise, o DataFrame possui um enorme leque de funcionalidades para quem deseja manipular dados. Podemos criar uma função comum que receba um valor e divida pela sua metade e submeter ao nosso Dataframe

[08]: def dividir_população(quantidade):
        return quantidade/2
[09]: df_estados["População"] = df_estados["População"].apply(dividir_população)
      df_estados
[10]: df_estados["Estados"] = df_estados["Estados"].apply((lambda x: x.lower()))
      df_estados

BeTheHero

Também é possível gerar novas colunas no seu DataFrame, há diversas formas de fazer isso, sendo pela união de dois dataframes, pelo retorno de uma função, pela utilização de campos calculados... são muitas formas, veremos a seguir as principais.

BeTheHero

[11]: df_estados["Qtd_Bairros"] = [71,160,96] # Adição de uma coluna manualmente
      df_estados["Média por bairro"] = df_estados["População"] / df_estados["Qtd_Bairros"] # Utilizando um campo calculado
      df_estados

BeTheHero

  • Filtragem de dados com Pandas
df_estados[df_estados['População'] > 200000]  #Filtrando o DataFrame para mostrar apenas valores maiores que 200000
df_estados.loc[0, 'Estados'] #Selecionando a primeira linha da coluna país 

📈 Visualização de dados com Pandas:

[12]: df = pd.read_csv("air_quality_no2.csv") # Base de dados da qualidade do Ar
      df.plot.area(figsize=(12, 4), subplots=True)

BeTheHero

🤝 Como contribuir

  • Faça um fork desse repositório;
  • Cria uma branch com a sua feature: git checkout -b minha-feature;
  • Faça commit das suas alterações: git commit -m 'feat: Minha nova feature';
  • Faça push para a sua branch: git push origin minha-feature.

Depois que o merge da sua pull request for feito, você pode deletar a sua branch.

📝 Licença

Esse projeto está sob a licença MIT. Veja o arquivo LICENSE para mais detalhes.


Made with ♥ by Luis Henriques 👋 Get in touch!

About

Este repositório está destinado ao processo de aprendizagem da biblioteca Pandas.

License:MIT License


Languages

Language:Jupyter Notebook 100.0%