- Jelaskan Problem Statementnya dan juga Background.
- Objective
- Data Understanding :
- Jelaskan Sumber Data
- Jelaskan atribut atau kolom yang ada dalam dataset tersebut.
- Key Questions:
- Apakah seseorang yang terkena hypertensi berpeluang terkena stroke lebih tinggi dibandingkan untuk orang yang tidak terkena hypertensi?
- Import Libraries
- Data Loading
- EDA (Exploratory Data Analysis)
- Data Preprocessing:
- Split Data antara fitur dan target
- Membuat data train dan test
- Pipeline:
- Menangani missing values (menggunakan imputasi)
- Encoding
- Scaling
- Power Transforms (Box-Cox atau Yeo-Johnson Transform)
- Feature Selection atau Pengecekan Feature Importance
- Model Development
- Boleh buat Baseline Models (Decision Tree dan Random Forest), gunakan nilai default parameter dari fungsi pemodelannya.
- Hyperparameter Tuning (GridSearchCV atau RandomSearchCV, HalvingGridSearch)
- Evaluasi Model (Accuracy, Recall, dll) dan Confusion Matrix.
- Kesimpulan dan Saran:
- Saran dari sisi bisnis dan untuk meningkat performa model