rokyv / ESEIT_BigData_2022b

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Herramientas y Lenguajes de Programacion para Big Data

Este es un curso introductorio para algunas de las herramientas mas utilizadas en el mundo de Big Data

  1. Lenguajes de programacion

    • Python
      • Tipos de variables
      • Numpy
      • Tratamiento de datos
        • Pandas
    • Estructura de directorios
      • Cookiecutter
    • R o R studio (Opcional)
  2. Control de versiones de codigo

    • GitHub
  3. Cloud Computing

    • Google Cloud Platform
    • Virual Machines
      • Compute Engine
    • Data lake y warehouse
      • Cloud Storage
      • Google Big Query (SQL)
    • Procesamiento de datos distribuido (Opcional)
      • Apache Airflow
        • Google Cloud Dataflow
  4. Herramientas de visualizacion

    • Google Data Studio

Evaluacion

3 tareas programadas:

  1. 30% tratamiento de datos (ETL en local) para limpieza y unificacion de datos (Volumen de llamadas al 123 en Bogota).
  2. 40% tratamiento de datos (ETL en cloud) para limpieza y unificacion de datos (Volumen de llamadas al 123 en Bogota).
  3. 30% reporte de datos, dashboard automatizado

Fuentes de datos

About


Languages

Language:Jupyter Notebook 76.8%Language:Python 23.2%