Combo (oversampd train_set + NON-oversampd val_set) = awful validation results

Question

Combo (oversampd train_set + NON-oversampd val_set) = awful validation results

AlexPasqua opened this issue 4 years ago · comments

Se faccio oversampling del training set, ma non del validation set, ottengo dei risultati orribili durante il training, anche se sul test set (con aggiunta di dati sintetici) le performance sono buone.

Il file è Classification_NN_oversamp.ipynb sul branch class/NN/oversamp

Esempio di grafico delle performance del training:

Alex Pasquali · Answer 1 · Thu Nov 26 2020 00:47:01 GMT+0800 (China Standard Time)

Validation set pairwise scatter plot:

Training set (oversampled) pairwise scatter plot:

Test set (oversampled) pairwise scatter plot:

Elia Piccoli · Answer 2 · Thu Nov 26 2020 00:49:36 GMT+0800 (China Standard Time)

Il problema è che i punti del validation set (punti rossi nel grafico) rispetto ai punti colorati che rappresentano gli elementi del training set hanno alcuni elementi che non sono minimamente approssimati e quindi il modello fa fatica a generalizzarli.

Alex Pasquali · Answer 3 · Thu Nov 26 2020 00:58:53 GMT+0800 (China Standard Time)

Sisi ho capito.
Comunque qualche caso fortunato c'è, ogni tanto esce un grafico abbastanza buono.

In ogni caso ho notato che, quando va male, si tende a peggiorare con l'andare delle epoche. Tagliando le epoche a 7 (ad esempio) i risultati sono più o meno sempre abbastanza buoni

Anche se ogni tanto esce comunque uno scempio 😅