DMA2022DataProjectC

Einleitung

Dieses Projekt ist im Rahmen der Vorlesung "Datenmanagement und Archivierung im Umfeld der Forschung (DAF)" an der Hochschule Mannheim mit Unterstützung von Dr. Maximilian Fünfgeld entstanden und hat das Ziel eine retrospektive klinische Studie durchzuführen. Dabei sind folgende Punkte besonders zu beachten:

Erstellen eines Datenmanagementplans
Richtige Aufbereitung der medizinischen Daten und deren Analyse
Reproduzierbarkeit der Auswertungen

Projekt Video

https://youtu.be/NBAYEIra41Q

Thema des Forschungsprojekts

In Deutschland sind etwa zwei Drittel aller Männer und rund die Hälfte aller Frauen übergewichtig. Davon weist ungefähr ein Viertel sogar starkes Übergewicht (Adipositas) auf. Auch die Zahl an übergewichtigen Kindern ist in den vergangenen Jahren gestiegen. Um eine bessere Vorsorge für unsere Kunden leisten zu können, wollen wir als Krankenkasse folgendes untersuchen:

Inwiefern Übergewicht mit unterschiedlichen Erkrankungen korreliert, also, ob nachweislich festzustellen ist, dass Menschen mit Übergewicht häufiger an bestimmten Krankheiten erkranken.

Hierfür wurden Patientendaten aus der elektronischen Patientenakte (ePa) als csv-Dateien exportiert. Die Daten wurden in einem ETL-Prozess in ein Sternschema transformiert, um effizentere Abfragen mit den Daten durchführen zu können. Dabei wurden unterschiedliche Kritierien der Datenqualität überprüft. Zur besseren Nachvollziehbarkeit und Risikominimierung wurden verschiedene Risiken und ihre Gegenmaßnahmen in der Datenschutzfolgeabschätzung vorgestellt.

Eine Übersicht über die gesamte Projektplanung und ihren Verlauf finden Sie im Datenmanagementplan

Abbildung 1: Datenflussdiagramm des gesamten Projekts mit Verweise auf die einzelnen Schritte.

Anschließend kann die Analyse zur Beantwortung der Forschungsfrage durchgeführt werden. Hierzu haben wir die Verteilung der BMI-Werte für die 10 am häufigsten vorkommenden Krankheiten betrachtet (Abb. 2). Dabei ist gut zu erkennen, dass die Anzahl vieler Krankeiten (Hyptertension,Prediabetes,...) bei einem BMI-Wert von ~28 rapide ansteigt.

Abbildung 2: Verteilung der BMI-Werte pro Erkrankungsdiagnosen: Links als Boxplots und rechts als Verteilungsfunktionen dargestellt.

Projekt Ausführung

Das Projekt kann entweder lokal oder online mit einem Google-Colab ausgeführt werden.

Google Colab

Für die Ausführung des Projekt in einem Colab-Book ist ein Google-Account notwendig. Falls dieser nicht vorhanden sein sollte folgen Sie der manuellen Installationsanleitung.

ETL-Colab-Book
Analyse-Colab-Book (⚠ Bitte führen Sie die Codeblöcke mit dem "Run all" Befehl aus, um eine korrekte Funktion zu gewährleisten.)

Manuelle Installation

Zur Ausführung des Projektes wird eine Python 3.x Version benötigt. Anschließend führen Sie folgende Schritte durch:

Repository klonen: Kopieren Sie sich den Inhalt des Repositories auf Ihren Rechner. Eine genaue Erklärung dazu finden Sie hier.
Installieren Sie die Python-Dependencies auf Ihren Rechner. Hierzu öffen Sie ein Terminal Fenster im Startverzeichnis des Projekts und führen folgenden Befehl aus:

pip install -r requirements.txt

Nun können Sie im Terminal die Jupyter-Notebook App öffnen:

jupyter notebook

Nun sollte sich im Browser das Jupyter-Notebook als Dateipfad des Projektes öffnen. Bei Problemen schauen Sie hier nach. Falls Sie noch nie mit Jupyter-Notebooks gearbeitet haben finden Sie hier erste einführende Schritte.

Führen Sie zuerst das ETL-Notebook aus, welches die Rohdaten in ein passendes Datenschema für die Analyse verarbeiten. Danach können Sie das Analyse-Notebook öffnen und die einzelnen Sektionen einzeln nachvollziehen.

Video

https://drive.google.com/file/d/1Q1wn_I_Z_I0G6pcFTpyk6Pz8wL6TTOs4/view?usp=sharing

Literatur & Kurse

Im Rahmen des Kurses wurden folgende Themen im Vorfeld ausgearbeitet, die eine gute Grundlage für das Verständnis dieses Projektes bilden:

Fuenfgeld / DMA2022DataProjectC