oKatanaaa / DS_SamU

Материалы курса "Инструменты анализа данных" 2022

Для изучения курса вам потребуются:

Python 3: https://www.python.org/
Библиотеки
numpy
pandas
sklearn
matplotlib
Jupyter-notebook

Лабораторные работы

Информация для группы 6306 (обновляется)
Порядок сдачи лабораторных работ для групп 6131, 6132, 6133

NumPy
Pandas
Визуализация данных
Классификация в sklearn (многоклассовая, бинарная)
Деревья решений
Catboost (классификация, регрессия)
Линейная регрессия в sklearn
Основы tensorflow
Классификация/регрессия в tensorflow
Деревья решений в tensorflow
Tensorboard - средство визуализации в tensorflow
Классификация текстов (с помощью TfIdf + LogisticRegression)
Кластеризация
Понижение размерности признакового пространства

Требования к датасетам

Наличие числовых признаков, не только категориальных
Не использовать датасеты из лекций, titanic и iris датасеты
Датасеты не должны повторяться
Датасет должен быть указан в таблице

Требования к оформлению лабораторных работ:

Лабораторные работы выполняются в jupyter-блокнотах, достаточно загрузить блокнот из данного репозитория и изменить имя файла
Необходимо комментирование кода и результатов

Датасеты:

Откуда брать датасеты для работ?

Репозитории с датасетами:

Всяческие открытые данные:

Полезные ссылки

About

Languages

Language:Jupyter Notebook 100.0%