Pekerjaan Ujian Akhir Data Mining
Data yang digunakan didalam laporan ini adalah data Wine quality (Kualitas Wine) data ini didapatkan di website kaggle yang menyediakan opendataset. Dataset wine quality memiliki 12 kolom data yang dimana terdapat 11 atribut dan 1 class.
- Data Atribut :
- fixed acidity
- volatile acidity
- citric acid
- residual sugar
- chlorides
- free sulfur dioxide
- total sulfur dioxide
- density
- pH
- sulphates
- alcohol.
- Data Atribut :
- quality (score between 0 and 10)
Tipe data atribut dan class yang ada di dataset wine ialah, memiliki tipe data float untuk data atribut dan tipe data integer untuk data class. Dan dataset wine memiliki 1599 jumlah dari.
Metode yang akan digunakan yaitu, akan menggunakan metode klasifikasi Decision tree dan clustering K-Means. Untuk metode klasifikasi akan dilakukan perbandingan hasil antara metode decision tree dan metode random forest dan juga akan ada perbandingan dengan metode Logistic regression.
Hasil dari klasifikasi data wine menggunakan Decision tree mendapatkan hasil sebagai berikut :
Dengan menggunakan metode decision tree mendapatkan nilai akurasi 90% dan CV score 86% yang artinya dataset wine memiliki nilai akurasi tinggi karena nilai akurasi melebihi 70% dataset tersebut dapat digunakan. Dan kita juga bisa memandingkan antara 3 metode yang berbeda dengan memandingkan metode Decision Tree, Random Forest dan Logistic Regression. Yang dimana hasil akurasi ketiga metode tersebut dapat dilihat pada gambar dibawah ini :
Jadi dari ketiga metode yang berbeda yang memiliki nilai akurasi paling tinggi adalah metode Random Forest dengan nilai Akurasi 93% dan CV Score 91%, jadi untuk mendapatkan nilai akurasi yang paling tinggi kita bisa menggunakan metode Random Forest.
Hasil dari Cluestering menggunakan metode K-Means mendapatkan pembagian dataset wine dan pembagian tersebut dilakukan menggunakan perulangan iterasi untuk mencari titik centroid.