koreoxy / Uas_Data_Mining

Pekerjaan Ujian Akhir Data Mining

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

UAS DATA MINING

Pekerjaan Ujian Akhir Data Mining

Contributor

Deskripsi Data

Content Data (Dataset Wine Quality)

Data yang digunakan didalam laporan ini adalah data Wine quality (Kualitas Wine) data ini didapatkan di website kaggle yang menyediakan opendataset. Dataset wine quality memiliki 12 kolom data yang dimana terdapat 11 atribut dan 1 class.

List dataset Wine Quality

  1. Data Atribut :
    • fixed acidity
    • volatile acidity
    • citric acid
    • residual sugar
    • chlorides
    • free sulfur dioxide
    • total sulfur dioxide
    • density
    • pH
    • sulphates
    • alcohol.
  2. Data Atribut :
    • quality (score between 0 and 10)

Data atribut dan class

image

Tipe data atribut dan class

Tipe data atribut dan class yang ada di dataset wine ialah, memiliki tipe data float untuk data atribut dan tipe data integer untuk data class. Dan dataset wine memiliki 1599 jumlah dari.
image

Metode

Metode yang akan digunakan yaitu, akan menggunakan metode klasifikasi Decision tree dan clustering K-Means. Untuk metode klasifikasi akan dilakukan perbandingan hasil antara metode decision tree dan metode random forest dan juga akan ada perbandingan dengan metode Logistic regression.

Hasil

Hasil dari Klasifikasi Data Wine Quality

Hasil dari klasifikasi data wine menggunakan Decision tree mendapatkan hasil sebagai berikut : image

Dengan menggunakan metode decision tree mendapatkan nilai akurasi 90% dan CV score 86% yang artinya dataset wine memiliki nilai akurasi tinggi karena nilai akurasi melebihi 70% dataset tersebut dapat digunakan. Dan kita juga bisa memandingkan antara 3 metode yang berbeda dengan memandingkan metode Decision Tree, Random Forest dan Logistic Regression. Yang dimana hasil akurasi ketiga metode tersebut dapat dilihat pada gambar dibawah ini :

Nilai Akurasi Metode Decision Tree

image

Nilai Akurasi Metode Random Forest

image

Nilai Akurasi Metode Logistic Regression

image

Jadi dari ketiga metode yang berbeda yang memiliki nilai akurasi paling tinggi adalah metode Random Forest dengan nilai Akurasi 93% dan CV Score 91%, jadi untuk mendapatkan nilai akurasi yang paling tinggi kita bisa menggunakan metode Random Forest.

Hasil dari Clustering K-Means Data Wine Quality

Hasil dari Cluestering menggunakan metode K-Means mendapatkan pembagian dataset wine dan pembagian tersebut dilakukan menggunakan perulangan iterasi untuk mencari titik centroid.
image

About

Pekerjaan Ujian Akhir Data Mining


Languages

Language:Jupyter Notebook 99.1%Language:Python 0.9%