destyo / Synthetic_Data

MÉTODOS PARA LA GENERACIÓN Y EVALUACIÓN DE DATOS SINTÉTICOS

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Métodos para la generación y evaluación de datos sintéticos

Máster universitario en Ciencia de Datos (MUCD) - CUNEF

Autor: Antonio Tello Gómez
Tutor: Diego J. Bodas Sagi
Fecha: 06/2022

cunef

Este repositorio contiene el código y los resultados de la parte de demostración de mi Trabajo de Fin de Máster "Métodos para la generación y evaluación de datos sintéticos"

El repositorio está formado por cuatro proyectos individuales para cuatro conjuntos de datos distintos.

  • Iris
  • Diamonds
  • NCDB
  • Lending Club

Esquema del sistema empleado

Image from Gyazo


¿Qué son los datos sintéticos?

Entendemos por datos sintéticos aquellos que no provienen de eventos en la realidad si no que han sido generados de manera artificial replicando las propiedades estadísticas de datos reales. Sin embargo, a diferencia de estos no contienen información que permita identificar a personas reales, garantizando así la protección de la privacidad.

Estructura del Proyecto

├── 1_0_iris
│   ├── data
│   ├── models
│   ├── notebooks
│   │   └── 1.0-iris-demo.ipynb
│   └── src
├── 2_0_diamonds
│   ├── data
│   ├── models
│   ├── notebooks
│   │   └── 2.0-diamonds-demo.ipynb
│   └── src
├── 3_0_ncdb
│   ├── data
│   │   ├── processed
│   │   │   ├── test.parquet
│   │   │   ├── train.parquet
│   │   │   ├── xtest.parquet
│   │   │   ├── xtrain.parquet
│   │   │   ├── ytest.parquet
│   │   │   └── ytrain.parquet
│   │   ├── raw
│   │   │   └── NCDB_1999_to_2014.csv
│   │   └── synth
│   │       ├── synth_ctgan.parquet
│   │       └── synth_tvae.parquet
│   ├── models
│   │   ├── ctgan.pkl
│   │   ├── gaussian_copula.pkl
│   │   ├── lightgbm_ctgan.joblib
│   │   ├── lightgbm.joblib
│   │   └── tvae.pkl
│   ├── notebooks
│   │   ├── Full_Evaluation_CTGAN.ipynb
│   │   ├── Full_Evaluation_TVAE.ipynb
│   │   └── Machine_Learning_Efficacy.ipynb
│   └── src
│       ├── auxiliar
│       │   ├── aux_func.py
│       │   ├── Constants.py
│       │   └── metadata.py
│       ├── generators
│       │   ├── COPGAN_generator.py
│       │   ├── CTGAN_generator.py
│       │   ├── GC_generator.py
│       │   └── TVAE_generator.py
│       └── original project
│           ├── predict.py
│           ├── preprocessing.py
│           └── train.py
├── 4_0_lending_club
│   ├── data
│   │   ├── andres
│   │   │   ├── synth_data_full.parquet
│   │   │   ├── test.parquet
│   │   │   └── train.parquet
│   │   ├── processed
│   │   │   ├── test.parquet
│   │   │   └── train.parquet
│   │   ├── raw
│   │   │   ├── Loan_test_set.csv
│   │   │   ├── Loan_training_set_1_4.csv
│   │   │   ├── Loan_training_set_2_4.csv
│   │   │   ├── Loan_training_set_3_4.csv
│   │   │   └── Loan_training_set_4_4.csv
│   │   └── synth
│   │       ├── synth_ctgan.parquet
│   │       └── synth_tvae.parquet
│   ├── models
│   │   ├── ctgan.pkl
│   │   └── tvae.pkl
│   ├── notebooks
│   │   ├── collaboration_project.ipynb
│   │   ├── Full_Evaluation_CTGAN.ipynb
│   │   ├── Full_Evaluation_TVAE.ipynb
│   │   └── test.ipynb
│   ├── reports
│   └── src
│       ├── auxiliar
│       │   ├── aux_func.py
│       │   ├── Constants.py
│       │   └── metadata.py
│       ├── generators
│       │   ├── COPGAN_generator.py
│       │   ├── CTGAN_generator.py
│       │   ├── GC_generator.py
│       │   └── TVAE_generator.py
│       └── original project
│           └── Preprocessing.py
├── LICENSE
├── README.md
├── synth_linux.yml
└── synth_windows.yml

Reproducibilidad

En el repositorio podemos encontrar dos ficheros .yml para recrear los entornos, tanto para Windows como para Linux. Para recrear los resultados es preferible utilizar el entorno Linux en un equipo con GPU y CUDA

Contacto

Antonio Tello Gómez - atelloengland@gmail.com

Project Link: https://github.com/destyo

Agradecimientos

Project based on the cookiecutter data science project template. #cookiecutterdatascience

(back to top)

About

MÉTODOS PARA LA GENERACIÓN Y EVALUACIÓN DE DATOS SINTÉTICOS

License:Other


Languages

Language:Jupyter Notebook 92.2%Language:HTML 7.7%Language:Python 0.1%