- podział danych na testowy i walidacyjny
- znajomosc datasetu, rozklady zmiennych, użyteczność
- wizualizacja rozkladow zmiennych, macierze korelacji miedzy zmiennymi ?
- kodowanie zmiennych kategorycznych
- znalezenie i pokazanie najciekawszych zalezności
- preprocessing danych - brakujace wartosci, enkodowanie zmiennych kategorycznych, transformacja zmiennych, usuwanie outlierów, poprawianie danych
- wstępne modelowanie ??