Comparto datasets que voy consolidando que uso para ejemplos de código en el blog https://ellocodelosdatos.blogspot.com/ y los tutoriales del canal de Youtube https://www.youtube.com/@ellocodelosdatos y que pueden ser útiles para quienes deseen aprender y practicar Python para Ciencia de datos.
Cada dataset es extraído de fuentes públicas y consolidado para que quede más fácil de de usar.
-
gapminder_data.csv (26,878 registros 178 países)Archivo creado con varios datos consolidados de la página https://www.gapminder.org/data/ sobre datos demográficos por país, proyectados hasta el 2100
Campo Tipo de datos Descripción continent string Continente country string País year int Año fertility float Estimación de hijos por mujer en edad reproductiva lifeExpectancy float Expectativa de vida al nacer mean_house_income float Ingreso promedio año en US$ median_age_year float Mediana de la edad de la población population float Total de la población, redondeada a miles o millones Créditos FREE DATA FROM WORLD BANK VIA GAPMINDER.ORG, CC-BY LICENSE Read more
-
Shows de TV extraidos de TVMaze.com TVMaze ofrece una completa API gratuita que pueden usar en sus proyectos, por ejemplo yo la uso en mi proyecto TV Password Generator y mediante un ciclo en Python extraje los datos y los procesé para tener datasets de diferentes tamaños, disponibles en CSV para que puedan usarlos directamente sin tener que descargarlos. Los datasets tienen los géneros de las series en un campo y también están ya codificados en columnas, lo que los hace útiles para diferentes modelos.
- TVMaze_Shows_Genres_encoded_1K.csv
- TVMaze_Shows_Genres_encoded_10K.csv
- TVMaze_Shows_Genres_encoded_25K.csv
Los campos son:
Campo Tipo de Datos Descripción id int url string name string type string language string genres string status string runtime float averageRuntime float premiered string ended string officialSite string rating float Calificación weight int network string network_name string network_country string network_country_code string webChannel_name string externals string image string summary string Drama float Género Science-Fiction float Género Thriller float Género Action float Género Crime float Género Horror float Género Romance float Género Adventure float Género Espionage float Género Music float Género Mystery float Género Supernatural float Género Fantasy float Género Family float Género Anime float Género Comedy float Género History float Género Medical float Género Legal float Género Western float Género War float Género Sports float Género Food float Género Travel float Género Adult float Género Children float Género DIY float Género Nature float Género -
Ventas simuladas para el año 2023 de tienda en línea de tecnología Este dataset es ideal para aprender a crear tableros o dashboards de ventas y generar análisis comerciales. Tiene 5000 registros.
Los campos son:
Campo Tipo de Datos Descripción orden int Orden de compra anio int Año compra mes int Mes Compra dia int Día Compra fecha datetime Fecha compra pais string ciudad string categoría string Categoría de productos producto string Nombre producto precio int Precio general util_porcent float Porcentaje de utilidad del producto Cantidad int Cantidad comprada Total int Total de la compra utilidad float Utilidad obtenida
Solo deben ir a cada dataset y tomar el código de su enlace raw y usarlo en sus códigos de Google Colab o Jupyter notebook directamente:
dfDatos = pd.read_csv('https://raw.githubusercontent.com/gcastano/datasets/main/gapminder_data.csv')