Для изучения курса вам потребуются:
- Python 3: https://www.python.org/
- Библиотеки
- numpy
- pandas
- sklearn
- matplotlib
- Jupyter-notebook
- Информация для группы 6306 (обновляется)
- Порядок сдачи лабораторных работ для групп 6131, 6132, 6133
- NumPy
- Pandas
- Визуализация данных
- Классификация в sklearn (многоклассовая, бинарная)
- Деревья решений
- Catboost (классификация, регрессия)
- Линейная регрессия в sklearn
- Основы tensorflow
- Классификация/регрессия в tensorflow
- Деревья решений в tensorflow
- Tensorboard - средство визуализации в tensorflow
- Классификация текстов (с помощью TfIdf + LogisticRegression)
- Кластеризация
- Понижение размерности признакового пространства
- Наличие числовых признаков, не только категориальных
- Не использовать датасеты из лекций, titanic и iris датасеты
- Датасеты не должны повторяться
- Датасет должен быть указан в таблице
- Лабораторные работы выполняются в jupyter-блокнотах, достаточно загрузить блокнот из данного репозитория и изменить имя файла
- Необходимо комментирование кода и результатов
Откуда брать датасеты для работ?
Репозитории с датасетами:
- Kaggle (как начать работу в Kaggle: руководство для новичков в Data Science)
- Материалы с курса OpenDataScience или тут
- Датасеты университета Калифорнии
- Учебные датасеты для R
- Датасеты от FiveThirtyEight
- Подборка на habr
- Подборка на Reddit
- Ещё подборка
- И ещё подборка
Всяческие открытые данные: