Dorota-Toskania / WarsztatPythonDataScience

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Program Semestru

1. Język Python 1

  • podstawowe elementy składni

  • struktury danych

  • Środowisko pracy do pracy z danymi – anakonda, jupyter, biblioteki i moduły

2. Język Python 2

  • instrukcje sterujące

  • obsługa błędów

  • Korzystanie z pythona – notebooks, skrypty

3. Data Wrangling 1

  • Tidy Data – co to jest

  • Data wrangling, munging, tidying

  • Biblioteka Pandas – wprowadzenie. Czytanie danych

4. Data Wrangling 2

  • Data Wrangling w praktyce – podstawowe operacje

  • Biblioteka Pandas – wybieranie kolumn i „krojenie danych”

5. Data Wrangling 3

  • Czyszczenie danych

  • Pandas – agregacja, grupowanie

6. Wizualizacja danych 1

  • Matplotlib – wprowadzenie

  • Proste wykresy

  • Konfiguracja wykresu, sztuczki i kruczki

7. Wizualizacja danych 2

  • Seaborn – wprowadzenie

  • Różnice i podobieństwa do Matplotlib

  • Dash by Plotly - interfejsy webowe

8. Zewnętrzne źródła danych

  • Pojęcie API i korzystanie z nich. JSON

  • Samodzielne pobieranie danych

9. Scraping

  • Biblioteka Scrapy

  • Biblioteki Beautiful Soup, lxml

  • Ściąganie danych z sieci

10. Machine Learning 1

  • Klasyfikacja w ML

  • Biblioteka scikit

11. Machine Learning 2

  • Metryki skuteczności optymalizacja modeli

  • Trening klasyfikatorów w scikit

12. Machine Learning 3

  • Wybór optymalnego modelu

  • Badanie charakterystyk modeli

  • Grid search w scikit

13. Machine Learning 4

  • Regresja w ML

  • Regresja w Scikit

14. Wprowadzenie do maszynowego przetwarzania tekstu

  • Specyfika danych tekstowych

  • Postawowe metryki dla danych tekstowych

  • Klasyfikacja dokumentów w Scikit.

Aby odtworzyć środowisko wykładu można skorzystać z polecenia: conda create --name <envname> --file requirements.txt

About


Languages

Language:Jupyter Notebook 99.3%Language:Python 0.7%