Casssini / DMIA_Sport_2019_Spring

Репозиторий спортивного направления DMIA, весна 2019

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DMIA, Спортивное направление. Весна 2019

Course requirements

План лекций

Лекции и задания будут размещены здесь незадолго перед началом соответствующего занятия. Расписание предварительное и может изменяться в процессе. В таблице дедлайны по заданиям указаны приблизительно, точные даты и время дедлайнов смотрите в заданиях.

Дата Занятие Материалы Задание Дедлайны Отзывы
02.02 Выложено вступительное задание Вступительный тест и вступительное соревнование (passwords)
09.02 Запуск DMIA Вступительный тест и вступительное соревнование (passwords)
16.02 Введение в соревнования. Идеология соревнований, отличие от индустриальных задач. Соревновательные платформы. Участие в командах, как объединять усилия и синхронизировать результат. Software, hardware. Опрос про лекцию и семинар
24.02 Соревнование с boosters
02.03 Первичное исследование данных на предмет скрытых закономерностей, особенностей формирования обучающей и тестовой выборок. Кратко про ошибки в составлении соревнований (утечки/лики). Анализ анонимизированных признаков. Визуализация как основной инструмент EDA. Ноутбук с семинара Соревнование airbnb
09.03 Метрики в задачах классификации и регрессии. Константные предсказания. Оптимизация метрик на уровне обучения моделей и уровне готовых предсказаний. Валидация. Основные типы разбиения на обучение и контроль. Проблемы, проявляющиеся на локальной валидации и в сабмитах на лидерборд, способы борьбы с ними. Различные распределения в обучении и тесте. Случаи непредсказуемости результатов на скрытой части тестовых данных и их причины (leaderboard shuffle). Ноутбук с семинара Задание
16.03 Признаки, их предобработка и генерация новых признаков. Связь между преобразованием признаков и качеством моделей на них. Генерация признаков на основе предварительных знаний о данных. Числовые и категориальные признаки, время и координаты. Пропущенные значения. Извлечение признаков из текстов и картинок. Задание
23.03 Обзор основных моделей машинного обучения - наивный байес, линейная модель, KNN, лес, бустинг, нейросети. Обсуждение параметров и тюнинга. Обсуждение особенностей и ограничений моделей. Про blackbox optimization.
30.03 Генерация усложненных признаков. Генерация статистик и признаков основанных на близости других объектов. Ноутбук с семинара
6.04 Кодирование признаков целевой переменной. Категориальные признаки. Борьба с переобучением и различные способы регуляризации. Обобщение на случай задачи регрессии, мультиклассовой классификации. Временные ряды. Кодирование взаимодействий и числовых признаков. Валидация. ноутбук с семинара
13.04 Ансамбли моделей. Линейная смесь. Блендинг. Стекинг. Валидация при использовании кодирования средним и ансамблей. ноутбук с семинара Соревнование с boosters
20.04 Виды хакатонов, критерии определения победителей. Как придумывать идеи для хакатонов на идеи, как придумывать применение данным, как делать MVP, как его демонстрировать, как делать презентацию. Как собирать команду, как распределять роли и работать в команде. Разработка презентаций, бизнес-решения.

About

Репозиторий спортивного направления DMIA, весна 2019


Languages

Language:Jupyter Notebook 99.9%Language:Python 0.1%