Arturo-Rodriguez-Moreno / 2_proyecto_limpieza_sharks

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

sharks_clean.png

Proyecto limpieza de datos

Introducción:

En este proyecto se pretende realizar una limpieza exhastiva de un dataset en formato .csv de ataque de tiburones que está bastante mas sucio de los que se suelen utilizar para un posterior análisis, lo que me permitirá realizar diferentes técnicas (wrangling, cleaning, manipulation).

Me podré ciertas condiciones para obligarme a tener que modificar los datos:

  • No puedo borrar columnas
  • No puedo borrar mas de 20% de las filas

Fuentes de los datos:

Kaggle Global Shark Attacks (https://www.kaggle.com/datasets/teajay/global-shark-attacks)

Objetivos:

  • Obtener un dataset lo mas limpio posible
  • Realizar una análisis general de los datos

Entregables:

  • proyecto_shark_limpieza.ipynb
  • proyecto_shark_limpieza.py
  • proyecto_shark_analis.ipynb
  • proyecto_shark_analis.py

Análisis:

Dado que los datos venía demasiado sucios, solo he podido quedarme realmente con alguno datos interesantes como son pais, año, edad y sexo. Por lo que las conclusiones se basarán sólo en estos apartados.

Conclusiones:

  • El top 3 de paises con mas ataques (USA: 1462, Australia: 697, Sudafrica: 392)
  • El 75% fueron entre los años 1965 y 2018
  • De los 3350 ataques el 17.5% fueron mortales
  • El 12.5% fueron a mujeres frente al 81% a hombres.
  • La edad media de las victimas era de 27 años

Enlaces y Recursos:

About


Languages

Language:Jupyter Notebook 97.3%Language:Python 2.7%