AlexPasqua / DM-project

Analysis of the spending behaviour of customers in an online shopping website

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Combo (oversampd train_set + NON-oversampd val_set) = awful validation results

AlexPasqua opened this issue · comments

Se faccio oversampling del training set, ma non del validation set, ottengo dei risultati orribili durante il training, anche se sul test set (con aggiunta di dati sintetici) le performance sono buone.

Il file è Classification_NN_oversamp.ipynb sul branch class/NN/oversamp

Esempio di grafico delle performance del training:
image

Validation set pairwise scatter plot:

image

Training set (oversampled) pairwise scatter plot:

image

Test set (oversampled) pairwise scatter plot:

image

image

Il problema è che i punti del validation set (punti rossi nel grafico) rispetto ai punti colorati che rappresentano gli elementi del training set hanno alcuni elementi che non sono minimamente approssimati e quindi il modello fa fatica a generalizzarli.

Sisi ho capito.
Comunque qualche caso fortunato c'è, ogni tanto esce un grafico abbastanza buono.

In ogni caso ho notato che, quando va male, si tende a peggiorare con l'andare delle epoche. Tagliando le epoche a 7 (ad esempio) i risultati sono più o meno sempre abbastanza buoni
image

Anche se ogni tanto esce comunque uno scempio 😅