Alle hovedeksperimentfiler er ligger i root folder. Derudover er de scripts der er brugt til at lave plots i mappen Plotscripts
Hovedfil er Samlet_test_kode.py
Yderligere filer er
Samlet_test_kode - TFIDF.py
- Test scriptet til de modeller der kører TF-IDFSamlet_test_kode-Bag-of-words.py
- Test scriptet til de modeller der kører Bag of wordsclean_data_enron.py
- data cleaning scriptetsplit5050_alternativ.py
- data split scriptet
Vores datasæt er fra https://www.kaggle.com/karthickveerakumar/spam-filter/version/1
Konstante parametere i datatransformation:
- Fjern email-informations tags (fw, re, subject, cc)
- Erstat specielle tegn eller tokens med strings (NUMBER, DOLLAR, EMAILADRESS, URL)
- Lav alt lower case
- Fjern punctuation
- Tag stammen af alle tokens (stemming)
Overblik over datasæt versioner:
Version 1: Fjern stop-words (standard-sæt)
Version 2: Fjern få enron-specifikke ting - Fjern enron, ect, com og kaminski (kunne fjerne mange flere men giver ikke mening ifølge Mikkel)
Version 3: Alle de konstante parametre (se ovenfor)