Ozlem-Uslu / Diabetes-Prediction-Feature-Engineering

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Geschäftsproblem

Ziel ist es, ein maschinelles Lernmodell zu entwickeln, das anhand der Spezifikation der Merkmale vorhersagen kann, ob Menschen an Diabetes leiden oder nicht. Vor der Entwicklung des Modells müssen die erforderlichen Datenanalyse- und Feature-Engineering-Schritte durchgeführt werden. (Szenario)

Datensatzgeschichte

Der Datensatz ist Teil eines großen Datensatzes, der an den National Institutes of Diabetes-Digestive-Nidney Diseases in den USA gespeichert wird. Dabei handelt es sich um die Daten, die für die Diabetesforschung bei Frauen verwendet werden, bestehend aus Pima-Indianerinnen im Alter von 21 Jahren und älter, die in Phoenix, der fünftgrößten Stadt des US-Bundesstaates Arizona, leben. Die Zielvariable wird als „Outcome“ angegeben; 1 bedeutet ein positives Diabetes-Testergebnis, 0 bedeutet negativ.

Variables

Pregnancies: Anzahl der Schwangerschaften

Glucose: 2-Stunden-Plasmaglukosekonzentration im oralen Glukosetoleranztest

BloodPressure: Blutdruck (Diasodruck) (mm Hg)

SkinThickness: Hautdicke

Insulin: 2-Stunden-Seruminsulin (mu U/ml)

DiabetesPedigreeFunction: Eine Funktion, die die Wahrscheinlichkeit, an Diabetes zu erkranken, anhand der Abstammung der Personen berechnet

BMI: Body Mass Index

Age: Alter

Outcome: An der Krankheit leiden (1) oder nicht (0)

Inhaltsverzeichnis

  1. Datenvorverarbeitung

Bibliotheken importieren

Einlesen eines Datensatzes

Explorative Datenanalyse

  1. Feature-Engineering

Ausreißeranalyse (Outliers Analysis)

Die Analyse fehlender Werte(Missing Values Analysis)

Erstellen neuer Funktionsinteraktionen

  1. Modellierung

Verarbeitung Kodierung & One-Hot-Kodierung

Standardisierung für numerische Variablen

Auswahl des besten Modells

About


Languages

Language:Python 100.0%