Экзамен состоится 9:00 15.06.2022 очно в Б.Физ. По уважительной причине возможно сдать дистанционно в 18:00 15.06.2022 (решается в отдельных случаях, писать на почту).
Если оценка отл, то можно получить автомат, об этом нужно написать на почту, если сообщения не будет, и в день экзамена не будет явки на экзамен, то ставится н/я.
Если оценка хор и выше, то можно сдать экзамен досрочно 20.05 после 18:00 (очно либо дистант уточню позже).
Если оценка уд и ниже (либо хор, но не был на досроке), то требуется прийти на экзамен и сдать его 15.06 9:00 Б.Физ.
Понятие модели алгоритмов, алгоритм обучения, процесс оптимизации для конкретной задачи.
Переход от бинарной к многоклассовой.
Переобучение. Борьба с переобучениям (начало).
Немного о типах задач машинного обучения: прикладные и исследовательские
Домашнее задание:
В задаче по переходу от бинарной классификации к многоклассовой добавить константу и скорректировать соответстветсвующие разделяющие гиперплоскости.
Подсказка: в LogisticRegresion нужно добавить специальный параметр fit_intercept=False, чтобы внутри черного ящика своя константта не добавлялась(влият на результат).
Линейные методы классификации и регрессии: метод стохастического градиента
Постановка задачи линейной регрессии через правдоподобие, вероятностные предположения о данных + регуляризаций.
Практическая часть:
Разбор домашнего задания.
Метод стохастического градиента на практике.
Использования torch framework для нахождения градиента сложной функции.
Вероятностная постановка задачи машинного обучения. Регуляризация l1, l2.
Анализ решения задачи оптимизации от параметра регуляризации.
Выбор параметра регуляризации при помощи LOO.
Домашнее задание:
Используя вероятностную постановку задачи для линейной регрессии с априорным предположением p(w) = N(0, I) получить аналитическое решение на оптимальный вектор параметров w.
Использовать метод Cross-Validation вместо метода LOO для выбора оптимального параметра регуляризации gamma.
Построение простой нейросетевой модели: многослойный персептрон.
Обучение персептрона на выборке MNIST.
Подбор гиперпараметров модели.
Пррореживание сетей (без кода, только графики).
Домашнее задание:
Проделать то, что было на семинаре для выборки FashionMnist: подбор гиперпараметров модели (выполнить более подробно чем на семинаре), также провести анализ полученных результатов.
Указать какие минусы вы увидели в подборе гиперпараметров на семинаре (их как минимум 3).
Провести эксперимент с полиномиальным ядром: сгенерировать синтетическую выборку, на которой полиномиальное ядро имеет лучшее качество аппроксимации чем rbf и линейное ядро.
Многомерная линейная регрессия. Метод главных компонент
Регуляризация для многомерной регрессии: используя SVD.
Зависимость качества аппроксимации от числа обусловлености.
Метод главных компонент: визуализация MNIST.
Метод главных компонент: для изображений.
Домашнее задание:
Доказать лемму из семинара.
Для синтетически сгенерированной выборки (beta=2, mu=0.01) построить график зависимости качества аппроксимации контрольной вбыорки от коэффициента регуляризации. Сравнить скорость работы в случае использования SVD разложения и без него.
Нелинейная регрессия. Обощенные линейные модели. Нестандартные функции потерь.
Использовать модель для векторизации предложений из семинара. На основе полученных векторов решить задачу сентимент анализа для выборки Twitter (задача бинарной классификации). В качестве модели рассмотреть логистическую регрессию. Рекомендуется использовать модель Perceptron с третьего семинара, а также функцию ошибки torch.nn.BCELoss. Ссылка на данные: https://drive.google.com/file/d/1k4JrnVcoePEENCYt5iy17dyV_h133j2X/view?usp=sharing (предложения для классификации это последний столбец, а целевая переменная это второй столбец).
Критерии выбора моделей и методы отбора признаков.
Рассматривается две выборки: выборка и выборка. Для обоих выборок построить AdaBoost, GradientBoosting, RandomForest, Bagging. Сравнить качество на обоих выборках. Отличается ли результат? Почему?
Самому сравнить разные методы кластеризации для трех концентрических окружностей.
Весений семестр
Курсовое домашнее задание:
Первое задание:
Дедлайн: 23:59 20.03.2022. Жесткий дедлайн 27.03.2022, каждый день оценка по каждой задаче уменьшается на 0.05. Суммарное количество баллов за каждую задачу 1.
Дедлайн: 23:59 10.04.2022(task 2-2.1); 24.04.2022(task 2-2.2) 23:59 08.05.2022 (task 2-2.3). Жесткий дедлайн 15.05.2022, каждый день оценка по каждой задаче уменьшается на 0.05.