Студенты, у которых отчетность дифф. зачет: получают зачет 20го мая во время пары по расписанию.
Студенты, у которых отчетность экзамен: во время занятия 20го мая будет досрок, все остальные сдают во время экзаменационной сессии по расписанию.
Оценка за семестр: сумма баллов ДЗ-1(макс. 5) + ДЗ-2(макс. 5). На досрочную сдачу экзамена претендуют студенты (у кого экзамен), у которых сумма баллов не ниже отл(8). Автомат (у тех у кого зачет), у которых сумма баллов не ниже отл(8)
Понятие модели алгоритмов, алгоритм обучения, процесс оптимизации для конкретной задачи.
Переход от бинарной к многоклассовой.
Переобучение. Борьба с переобучениям (начало).
Немного о типах задач машинного обучения: прикладные и исследовательские
Домашнее задание:
В задаче по переходу от бинарной классификации к многоклассовой добавить константу и скорректировать соответстветсвующие разделяющие гиперплоскости.
Подсказка: в LogisticRegresion нужно добавить специальный параметр fit_intercept=False, чтобы внутри черного ящика своя константта не добавлялась(влият на результат).
Линейные методы классификации и регрессии: метод стохастического градиента
Постановка задачи линейной регрессии через правдоподобие, вероятностные предположения о данных + регуляризаций.
Практическая часть:
Разбор домашнего задания.
Метод стохастического градиента на практике.
Использования torch framework для нахождения градиента сложной функции.
Вероятностная постановка задачи машинного обучения. Регуляризация l1, l2.
Анализ решения задачи оптимизации от параметра регуляризации.
Выбор параметра регуляризации при помощи LOO.
Домашнее задание:
Используя вероятностную постановку задачи для линейной регрессии с априорным предположением p(w) = N(0, I) получить аналитическое решение на оптимальный вектор параметров w.
Использовать метод Cross-Validation вместо метода LOO для выбора оптимального параметра регуляризации gamma.
Построение простой нейросетевой модели: многослойный персептрон.
Обучение персептрона на выборке MNIST.
Подбор гиперпараметров модели.
Пррореживание сетей (без кода, только графики).
Домашнее задание:
Проделать то, что было на семинаре для выборки FashionMnist: подбор гиперпараметров модели (выполнить более подробно чем на семинаре), также провести анализ полученных результатов.
Указать какие минусы вы увидели в подборе гиперпараметров на семинаре (их как минимум 3).
Провести эксперимент с полиномиальным ядром: сгенерировать синтетическую выборку, на которой полиномиальное ядро имеет лучшее качество аппроксимации чем rbf и линейное ядро.
Многомерная линейная регрессия. Метод главных компонент
Регуляризация для многомерной регрессии: используя SVD.
Зависимость качества аппроксимации от числа обусловлености.
Метод главных компонент: визуализация MNIST.
Метод главных компонент: для изображений.
Домашнее задание:
Доказать лемму из семинара.
Для синтетически сгенерированной выборки (beta=2, mu=0.01) построить график зависимости качества аппроксимации контрольной вбыорки от коэффициента регуляризации. Сравнить скорость работы в случае использования SVD разложения и без него.
Нелинейная регрессия. Обощенные линейные модели. Нестандартные функции потерь.
Использовать модель для векторизации предложений из семинара. На основе полученных векторов решить задачу сентимент анализа для выборки Twitter (задача бинарной классификации). В качестве модели рассмотреть логистическую регрессию. Рекомендуется использовать модель Perceptron с третьего семинара, а также функцию ошибки torch.nn.BCELoss. Ссылка на данные: https://drive.google.com/file/d/1k4JrnVcoePEENCYt5iy17dyV_h133j2X/view?usp=sharing (предложения для классификации это последний столбец, а целевая переменная это второй столбец).
Критерии выбора моделей и методы отбора признаков.
Рассматривается две выборки: выборка и выборка. Для обоих выборок построить AdaBoost, GradientBoosting, RandomForest, Bagging. Сравнить качество на обоих выборках. Отличается ли результат? Почему?
Самому сравнить разные методы кластеризации для трех концентрических окружностей.
Весений семестр
Курсовое домашнее задание:
Первое задание:
Дедлайн: 23:59 31.03.2024. Жесткий дедлайн 07.04.2024, каждый день оценка по каждой задаче уменьшается на 0.05. Суммарное количество баллов за каждую задачу 1.
Писать на почту Андрею. Тема письма [MIPT-2024-ML-spring-1] ФИО. В письме прислать .ipynb файлы (или ссылку на диск --- проверьте что есть доступ на чтение!!!).
Второе задание:
Дедлайн: 23:59 05.05.2024. Жесткий дедлайн 12.05.2024, каждый день оценка по каждой задаче уменьшается на 0.05.
Писать на почту Андрею. Тема письма [MIPT-2024-ML-spring-2] ФИО. В письме прислать .ipynb файлы (или ссылку на диск --- проверьте что есть доступ на чтение!!!).
План занятий
Глубокие Нейронные Сети. Сверточные нейросети и Рекурентные сети.