iasinDev / EDEM_MDA2324

Common Repository for 2023-2024 Data Master

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

EDEM_MDA2324

Common Repository for 2023-2024 Data Master

El objetivo de este repositorio es servir de guía y de punto de comunicación entre alumnos y profesorado. Los alumnos deberán seguir las instrucciones que se indican en este documento para realizar las entregas de los trabajos y proyectos que se vayan solicitando a lo largo del curso.

Instrucciones para la entrega de trabajos y proyectos

1. Usando vuestra cuenta de Github

2. Realizar un Fork de este repositorio

Para realizar un Fork de este repositorio, deberéis hacer click en el botón Fork que aparece en la parte superior derecha de la página. Esto creará una copia del repositorio en vuestra cuenta de Github.

3. Crear una carpeta con vuestro nombre y apellidos

Alumnos/PedroNieto/

4. Crear una carpeta por cada trabajo o proyecto

Alumnos/PedroNieto/Trabajo1/

5. Subir los archivos correspondientes a cada trabajo o proyecto

En cada commit, vuestro código será evaluado automáticamente por Github Actions. Si el código no pasa las pruebas, el commit será rechazado y no se podrá realizar la entrega. Si el código pasa las pruebas, el commit será aceptado y se podrá realizar la entrega.

6. Crear un Pull Request para que el profesor pueda revisar vuestros trabajos

Para crear un Pull Request, deberéis hacer click en el botón Pull Request que aparece en la parte superior derecha de la página. Esto creará una petición para que el profesor revise vuestros trabajos. En el título del Pull Request deberéis indicar vuestro nombre y apellidos para que sea revisado por el profesor correspondiente.

Para realizar la entrega de los trabajos y proyectos, deberéis crear una pull request en estado de Draft hasta que esté disponible para ser entregada. Una vez esté lista para ser entregada, deberéis cambiar el estado de la pull request a Ready for review. El profesor revisará vuestros trabajos y os indicará si es necesario realizar alguna corrección mediante conversaciones que tendréis que resolver para ser aceptada.

Indice de Contenidos del Máster

Este máster está divido en tres grandes módulos, que permitirán al alumno adquirir los conocimientos en el ecosistema de Datos de una manera incremental desde lo más básico a lo menos básico ;-).

Modulo 0 - Introducción

Durante este bloque, los alumnos se centrarán en adquirir conocimientos básicos sobre datos, programación y despliegue de la tecnología necesaria para poder ejecutar el trabajo futuro. Descubrirán los controles de Linux, notebooks, aprenderán a trabajar en el lenguaje de programación Python junto con servicios de contenedores como Docker.

En resumen, este bloque les proporcionará una base sólida que les permitirá avanzar con naturalidad en su aprendizaje.

  • Python

  • Linux

  • Git

  • Containers (Docker)

  • Notebooks

Modulo 1 - Tratamiento del Dato

Durante este bloque, los alumnos se sumergirán en el perfil del Data Engineer: el profesional enfocado en el diseño, desarrollo y mantenimiento de los sistemas de procesamiento de datos dentro de un proyecto big data. Su función es dejar disponible el conjunto de datos validos con el que es necesario obtener, depurar y preparar los datos para su explotación.

Para ello, descubrirán el origen de los datos y su tipología, el manejo de grandes volúmenes de datos con SQL y NoSQL, creación de dashborads con su posterior creación en Tableau, el uso de tecnologías como Flask API’s, Kafka, Spark Streaming, Cloud, IAC Terraform y Localización, además de comprender el fujo de datos, su calidad y el gobierno de datos.

En resumen, este bloque les dará una base sólida para ocupar puestos de Data Engineer que se asegure de definir e implementar un flujo de datos desde su origen hasta su exploración de una forma controlada y automatizada.

  • SQL
  • NoSQL
  • Tableau
  • Flask API’s
  • Kafka
  • Spark Streaming
  • Cloud
  • IAC Terraform

Modulo 2 - Análisis y aprendizaje automático

Durante este bloque, los alumnos se sumergirán en el perfil del Data Scientist: el profesional enfocado a entrenar modelos que extraen conocimiento sobre el problema a tratar a partir de los datos usando herramientas matemáticas y conocimientos del dominio de negocio.

Para ello, repasarán conocimientos de estadística y matemáticas dentro del entorno de programación con Python, usarán los diferentes métodos de clasificación, regresión, clustering y dimensionalidad dentro del machine learning y diferentes tipologías de redes neuronales como conectadas y convolucionales. Además, entenderán el estado del arte actual y su despliegue.

En resumen, este bloque les dará una base sólida para ocupar puestos de Data Scientist que se asegure de encontrar patrones y tendencias en los conjuntos de datos, crear algoritmos y modelos para predecir resultados y utilizar las técnicas de aprendizaje para mejorar la calidad de los datos.

Estado de las entregas

Entregas Fin de Semana

Alumno DOCKER PYTHON LINUX NOTEBOOKS AHORCADO SQL FLASK KAFKA SPARK
Alberto_de_gea
Andres_cervera
Adriana_campos
Carlos-ferrer-sanchez
Cristian_marty
Eloy-martinez-gomez
Fernando-cabrera-carbonell
Jackeline-romero-matego
Jesus_jornet_orti
Juan cornejo
Lucía-esteve-domínguez
Mar-pons-valverde
Pablo-perez-alvarez
Pablo martí nomdedeu
Pablo_ivorra
Pepe_aguilar_van_der_hofstadt
Rafael-perez-morales
Stas korotchenko

Entregas Entre Semana

Alumno DOCKER PYTHON LINUX NOTEBOOKS AHORCADO SQL FLASK KAFKA SPARK
Andres_roncancio
Antonio_faura
Balma_agost
Borja_cabo
Carlos_buenrostro_valverde
Diego_pitarch
Francisco_tudela
Gabriela_penaherrera
Hugo_maria
Ines_soler
Julian_merino
Javier_ruiz
Jorge_dominguez
Josan_rodrigo_cortes
Luis_segura
Miguel_herrero
Nacho_reyes
Pau_garcia
Yael_larrosa

About

Common Repository for 2023-2024 Data Master


Languages

Language:Jupyter Notebook 97.5%Language:Python 2.4%Language:Shell 0.1%Language:Java 0.1%Language:Dockerfile 0.0%Language:HTML 0.0%Language:Scala 0.0%Language:JavaScript 0.0%