Essex97 / Multi-class-Classification-with-Neural-Networks

(Project of Subject: Data Science & Web Mining AUEB 2019) Kaggle competition: The case of flight passengers prediction

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

INF131: The case of flight passengers prediction

Build a classifier to predict number of passengers in flights

Μέλη:

Ξενουλέας Ευστράτιος (p3150130)

Σταρατζής Δημήτριος (p3150166)

Νάμπουρη Χρυσούλα Μαρία (t8150096)

Περιγραφή Project


Στα πλαίσια της εργασίας του μαθήματος "Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό" ασχοληθήκαμε με ένα supervised learning πρόβλημα και συγκεκριμένα με ένα πρόβλημα κατηγοριοποίησης.

Πιο συγκεκριμένα, δίνεται ένα σύνολο δεδομένων το οποίο αποτελείται από μερικές χιλιάδες πτήσεις στην Αμερική, όπου κάθε πτήση περιγράφεται απο ένα σύνολο μεταβλητών (αεροδρόμιο αναχώρησης, αεροδρόμιο άφιξης, κτλ). Κάθε πτήση χαρακτηρίζεται επίσης από μια μεταβλητή που σχετίζεται με τον αριθμό των επιβατών της πτήσης (π.χ. κάθε τιμή της μεταβλητής σχετίζεται με ενα εύρος πλήθους επιβατών). Για κάποιες πτήσεις, η τιμή της μεταβλητής είναι γνωστή, ενώ για άλλες όχι. Στόχος είναι να προβλέψουμε την τιμή της μεταβλητής για τις πτήσεις για τις οποίες δεν είναι διαθέσιμη.

Dataset


Το αρχείο με όνομα train.csv περιέχει τα δεδομένα εκπαίδευσης (training set) του προβλήματος, ενώ το αρχείο test.csv περιέχει τα δεδομένα ελέγχου (test set) του προβλήματος. Κάθε γραμμή των δυο αυτών αρχείων αντιστοιχεί σε μια πτήση, η οποία χαρακτηρίζεται από τις εξής μεταβλητές:

  • DateOfDeparture: Ημερομηνία Αναχώρησης
  • Departure: Κωδικός Αεροδρομίου Αναχώρησης
  • CityDeparture: Όνομα Αεροδρομίου Αναχώρησης
  • LongitudeDeparture: Γεωγραφικό Μήκος Αεροδρομίου Αναχώρησης
  • LatitudeDeparture: Γεωγραφικό Πλάτος Αεροδρομίου Αναχώρησης
  • Arrival: Κωδικός Αεροδρομίου Άφιξης
  • CityArrival: Κωδικός Αεροδρομίου Άφιξης
  • LongitudeArrival: Γεωγραφικό Μήκος Αεροδρομίου Άφιξης
  • LatitudeArrival: Γεωγραφικό Πλάτος Αεροδρομίου Άφιξης
  • WeeksToDeparture: Πόσες εβδομάδες πριν την αναχώρηση της πτήσης κατά μέσο όρο έκλεισαν οι επιβάτες τα εισιτήριά τους
  • std_wtd: Τυπική απόκλιση για το WeeksToDeparture.

Το training set περιέχει μια επιπλέον μεταβλητή (PAX), η οποία έχει σχέση με τον αριθμό των επιβατών της πτήσης. Η μεταβλητή αυτή παίρνει 8 διαφορετικές τιμές (τιμές από 0 έως 7 οπότε 8 κατηγορίες συνολικά). Κάθε κατηγορία υποδηλώνει πόσοι περίπου επιβάτες χρησιμοποίησαν την πτήση. Οι αριθμοί στις κατηγορίες έχουν ανατεθεί με τυχαίο τρόπο.

Η μεταβλητή `PAX` λείπει από το test set, καθώς πρόκειται για την μεταβλητή που πρέπει να προβλέψουμε στα πλαίσια της παρούσας εργασίας.

Our model:
Model

About

(Project of Subject: Data Science & Web Mining AUEB 2019) Kaggle competition: The case of flight passengers prediction


Languages

Language:Jupyter Notebook 100.0%