designeng / mlcourse_open

OpenDataScience Machine Learning course (yet Russian-only)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Открытый курс OpenDataScience по машинному обучению

ODS stickers

❗ 3-ий запуск будет 1 марта 2018 г. при условии достижения целей на краудфандинговой платформе Patreon

Статья про курс на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале #mlcourse_open.

Цель курса – развить понимание основных концепций машинного обучения (теория) и дать навыки его использования (практика). Поэтому статьи не без математики и поэтому в курсе множество активностей: домашние задания, соревнования на Kaggle Inclass, слушатели сами пишут тьюториалы по интересным темам и выполняют индивидуальные проекты.

Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа. Подробнее – в Wiki репозитория.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес
  6. Регрессия, регуляризация
  7. Обучение без учителя
  8. Признаки, SGD, Vowpal Wabbit
  9. Временные ряды
  10. Градиентный бустинг

Беседы с гуру Data Science

  1. Александр Дьяконов
  2. Константин Воронцов
  3. Евгений Соколов

Домашние задания

  1. Анализ данных по доходу населения UCI Adult, ipynb
  2. Визуальный анализ данных о публикациях на Хабрахабре, ipynb
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI, ipynb
  4. Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика. ipynb Часть 2: прогноз популярности статьи на Хабрахабре, ipynb
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга, ipynb
  6. Работа с признаками, ipynb
  7. Метод главных компонент, t-SNE и кластеризация, ipynb
  8. Предсказание числа просмотров вики-страницы, ipynb

Проекты

  1. Идентификация пользователей по последовательности посещенных сайтов ("Элис"). Описание. Тетрадки.
  2. Индивидуальные проекты. Описаны на Wiki.

Wiki-страницы этого репозитория:

About

OpenDataScience Machine Learning course (yet Russian-only)

License:Other


Languages

Language:Python 100.0%Language:Shell 0.0%