OTUS.ru - Промышленный ML на больших данных

Модуль 1. Базовые вводные для старта курса

Занятие 1. Градиентный спуск и линейные модели.

Обзор курса
Линейные модели машинного обучения
Градиентный спуск

Занятие 2. Обзор основных методов и метрик машинного обучения.

Модели машинного обучения и кейсы их применения
Метрики машинного обучения
Кроссвалидация

Занятие 3. Основы программирования на Scala

Язык Scala и среда разработки
Базовые конструкции, функциональные и ООП-элементы
Математические и ML библиотеки в Scala

Домашнeе заданиe № 1. Линейная регрессия на Scala

Модуль 2. Технологические основы распределенной обработки данных

Занятие 4. Эволюция параллельных алгоритмов

Градиентный спуск на MapReduce
Плюсы и минусы массивно-параллельного и распределенного подхода
Что такое линейная масштабируемость и как она теряется

Занятие 5. Менеджеры ресурсов в распределенных системах

Уровни изоляции (по задачам в Спарке, по контейнерам-процессам в YARN, по докер-контейнерам в KubeFlow)
Spark On Yarn
Принципы управления стандартными ресурсами (RAM+CPU)
GPU в рамках YARN

Занятие 6. Распределенные хранилища

HDFS/S3
NoSQL, аналитические хранилища
Эволюция форматов хранения от SequenceFile и Avro-файлов к Parquet
Преимущества и возможности колоночных форматов хранения. Концепция Object Store

Занятие 7. Основы Apache Spark

RDD API, задачи, этапы, даги, шаффлы и броадкасты
SQL API – датафреймы и датасеты, работа оптимизатора
Тестирование кода на Спарке

Домашнeе заданиe № 2: Работа с большими данными на Apache Spark

Модуль 3: Основы распределенного МL

Занятие 8. Перенос МЛ алгоритмов в распределенную среду

Виды параллелизма при переносе МЛ (по данным, по модели, по задаче) в распределенную среду
Распараллеленный по данным алгоритм
Гибрид с параллелизмом и по данным, и по модели (блочное СВД)
Концепция сервера параметров и какие есть альтернативы для Спарка. Параллелизм по задаче на примере кросс-валидации

Занятие 9. ML в Apache Spark

Эволюция ML API в Spark
Концепция ML пайплайнов, работа с основными блоками
Обзор имеющихся возможостей SparkML

Занятие 10. Разработка собственных блоков для SparkML

Расширение функционала SparkML своими алгоритмами
Тестирование кода
Advanced Spark: broadcast, all reduce, ассumulators

Занятие 11. Сторонние библиотеки, для использования со Spark

XGBoost
AzureML
PravdaML
MXNet. Параметр серверы (AngelPS)

Занятие 12. Оптимизация гиперпараметров и AutoML

Постановка задачи подбора гиперпараметров в распределенных решениях
Оптимизация гиперпараметров с помощью PravdaML

Домашнeе заданиe № 3: Реализовать свой модуль SparkML

Модуль 4: Потоковая обработка данных

Занятие 13. Потоковая обработка данных

Анализ данных в потоке. Kafka
Лямбда и Каппа архитектуры
Построение DAG-ов стримовых задач

Занятие 14. Spark Streaming

Основы стриминга в Spark: сорцы и синки, партиционирование, оконные функции, управление состоянием, чекпоинты
Внутренняя и внешняя стыковка задач

Занятие 15. Структурный и непрерывный стриминг в Spark

Структурный стриминг для подключения SQL и ML к стримам
Особенности работы оптимизатора в стримовом случае
Continous streaming как один из вариантов организации сервинга Spark ML

Занятие 16. Альтернативные потоковые фреймворки

Flink
Kafka Streams
Samza
NiFi
Особенности stream-first решений

Домашнeе заданиe № 4: Использование Spark Streaming для потокового обучения моделей

Модуль 5. Целеполагание и анализ результатов

Занятие 17. Определение цели МЛ проекта и предварительный анализ

Цели МЛ проектов: краткосрочные/долгосрочные, инертные/динамичные.
Цель – онлайн-метрика – оффлайн-метрика – функция потерь.
Инструменты ad-hock аналитики: Zeppelin с плагином для IDEA, Polynote.

Занятие 18. Долгосрочные ML цели на примере задачи уменьшения оттока.

Проблема correlation vs. causation
Формирование критерия оттекших/удержавшихся пользователей
Инжиниринг фичей
Тренировка и интерпретация модели
Формулировка набора гипотез

Занятие 19. А/Б тестирование

Введение в А/Б тесты
Доверительные интервалы и статистические гипотезы.
Формулировка целей, дизайн теста, определение времени и объема аудитории.
Множественное тестирование в теории и на практике, снижение FDR. Гетерогенный эффект.

Занятие 20. Дополнительные темы

Counterfactual reasoning на примере оффлайн А/Б тестривания ML моделей рекомендательных систем (в том числе как метод коррекции смещения в обучении)
Дизайн синтетических метрик для оффлайн и онлайн тестов

Домашнeе заданиe № 5: Анализ оттока пользователей

Модуль 6: Вывод результатов ML в продакшн

Занятие 21. Подходы к выводу ML решений в продакшн.

Пакетный, потоковый, и онлайн (асинхронный и синхронный) паттерны и их комбинации
Организация пакетной части - от кронтаба к триггерным системам
Airflow, Oozie, Luidgi
Организация мониторинга

Занятие 22. Версионирование, воспроизводимость и мониторинг

Воспроизводимость в Spark ML
DvC, MLFlow
Трансформация прототипа в пром решение (тесты, метрики, семафоры)

Занятие 23. Онлайн-сервинг моделей

Вычисление модели в режиме онлайн: пакеты MLeap и JPMML
Дублирование кода, continous streaming и Azure ML Spark Serving
Доставка до моделей фичей и параметров
Способы декомпозиции модели для онлайн-инференса. Перенос больших бинарных файлов с моделями
Мониторинг, тестирование, постепенные выкатки

Занятие 24. Паттерны ассинхронного потокового ML и ETL

Асинхронный NRT паттерн
Усиление онлайн части подготовкой свежих признаков (CTR)
Ускорение пакетной части за счет размазывания нагрузки в течении дня
Интеграция с другими технологическими платформами (Python)
Мониторинг потоковых процессов

Занятие 25. Если надо Python

Встраивание Python в экосистему
Паттерн “кластер + большая тачка”
Выставление обученных моделей через REST или как со-процесс с JVM.
GraalVM

Занятие 26. Альтернативные фреймворки с поддержкой Python и область применимости

Dusk
KubeFlow
Seldon Core
H2O
Особенности эксплуатации гетерогенных систем в проме

Домашнeе заданиe № 6: Вывод рекомендаций в Пром

Модуль 7: ML на Python в продакшне

Занятие 27. Production Code на Python. Организация и Packaging кода

Вид production кода для задач классификации и регрессии
Packaging кода с помощью python библиотек
Использование репозиториев модулей pypi и gemfury

Занятие 28. REST-архитектура: Flask API

Основы и примеры REST архитектуры
Flask и его использование
Построение REST Endpoint на основе ML модели
Локальное тестирование POST запросов в Postman

Занятие 29. Docker: Структура, применение, деплой

Docker и его структура
Использование Docker контейнеров для packaging кода
Применение Docker для работы на AWS - деплой с использованием AWS ECS и EMR

Занятие 30. Amazon Sagemaker

Использование специализированных сервисов ML на AWS - Amazon Sagemaker
Использование “нативного” Sagemaker, комбинирование Sagemaker с sklearn, написание собственных Docker images
Пример реализации endpoint для ML модели

Занятие 31. AWS ML Service

Разработка сервиса на Amazon Sagemaker на примере Deep Learning задачи - image classification.
Docker + Jenkins + AWS Code Build + AWS ECR + Endpoint + AWS Lambda + Api Gateway

Домашнeе заданиe № 7: ML Deep Learning Service на AWS

Модуль 8. Продвинутые топики

Занятие 32. Нейросети

Основные понятия и архитектуры, примеры на MXNet и Gluon
Зачем нужен GPU/TPU и когда он не нужен

Занятие 33. Распределенное обучение и инференс нейросетей

Платформа Horovod и интеграция с фреймворками
Добавление GPU как ресурса Hadoop и Spark
DL over Spark. Инференс нейросетей в Spark через Scala/Java байндинги
Адаптация асинхронного патерна и интеграция с Python для инференса нейронок

Занятие 34. Градиентный бустинг на деревьях

Теория градиентного бустинга и пример адаптации в XGBoost
Интеграция XGBoost в Spark
LightGBM в Azure ML как альтернатива бустингу в Spark. Дообучение в LightGBM
Интерпретация моделей градиентного бустинга

Занятие 35. Обучение с подкреплением

Общие понятия обучения с подкреплением и его преимущества относительно обучения с учителем
Многорукие бандиты как один из подходов
Сэмплер Томпсона и LinUCB
Интеграция с нейронками и NeuralLinear бандиты, реализация с использованием потоковых фреймворков.

Домашнeе заданиe № 8: Обучение сложных моделей машинного обучения с помощью распределенных инструментов

Модуль 9. «Проектная работа»

Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.

Занятие 36. Вводное занятие по проектной работе

Слушатели курса смогут определиться с темой проекта (выбрать из предложенного списка или привнести задачу из деятельности своей компании), получить понимание какие ресурсы им необходимо использовать для работы.

Домашнeе заданиe № 9. Проектная работа

Занятие 37. Консультация по проектной работе

Слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.

Занятие 38. Защита проектной работы

По окончании занятия слушатели курса получат разбор проектов, комментарии и оценку своей работы.