AbdelmajidLh / ML_diabet_predict_pyspark

Prédiction du diabète par régression logistique avec Python et PySpark

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

PysPark ML Lib - Prédiction du diabète par régression logistique avec pyspark

Réalisé par : Abdelmajid EL HOU - Consultant Data
ePortfolio | Github | Linkedin

Contexte & Objectif

Le jeu de données provient du National Institute of Diabetes and Digestive and Kidney Diseases. L'objectif est de prédire, à partir de mesures diagnostiques, si un patient est diabétique.

Le dataset est composé uniquement de femmes (> 21 ans) et est disponible sur Kaggle (lien ici).

ce projet a été réalisé dans Google Colab (voir lien).

Plan

  • Google colab & installation et prérequis
  • Cloner et explorer le jeu de données
  • Nettoyage des données (data cleaning)
  • Feature selection
  • Split dataset (train, test)
  • Construire et entrainer le modèle
  • Evaluation des performances du modèle & test du modèle
  • Sauvegarder le modèle

About

Prédiction du diabète par régression logistique avec Python et PySpark


Languages

Language:Jupyter Notebook 81.2%Language:Python 18.8%