popovanika / DPO_2020_autumn

Python для автоматизации и анализа данных 2020 (осень)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DPO_2020_autumn

Материалы по курсу «Python для автоматизации и анализа данных» (НИУ ВШЭ, ЦНО ФКН).

Преподаватель: Ян Пиле

Общая информация:

Каждому занятию соответствует свой порядковый номер. Всего занятий 18 (12 - программирование на Python, 6 - Python для анализа данных). В папке каждого занятия вы найдете блокноты с пройденным на семинаре материалом и ссылки на дополнительные материалы.

Блок 1. Python

1 занятие (02.09.2020)
Гид по git. Стиль PEP8. Основы работы с Jupyter. Целые и вещественные числа, логические переменные. Строки, ввод и форматирование

2 занятие (05.09.2020) Контейнеры в Python: списки, кортежи, множества, словари. Индексация и срезы. Методы строк и списков.

3 занятие (09.09.2020) Регулярные выражения и методы строк

4 занятие (12.09.2020) Цикл for. Применение циклов к строкам, спискам, кортежам и словарям. Альтернатива коду с циклами: списковые включения. Итераторы, генераторы списков.

5 занятие (16.09.2020) Устройство функций в Python. Написание простейших функций. Lambda-функции. Функция map(). Написание сложных функций. генераторы, Декораторы, Рекурсия.

6 занятие (19.09.2020) О-нотация, Эффективность работы кода на примере алгоритмов сортировки. Исключения. Работа с файлами: чтение и запись. Поиск ошибок в коде и отладка.

7 занятие (23.09.2020) Сбор данных: введение в html, web-scraping с BeautifulSoup

8 занятие (26.09.2020) Сбор данных: web-scraping с BeautifulSoup(Продолжение).Продвинутая работа со словарями. Работа с файлами типа JSON и XML, работа с сервисами через API

9 занятие (30.09.2020) Openpyxl - библиотека для работы с Excel-файлами, Немного об SQL и Clickhouse, немного о Beautiful soup

10 занятие (03.10.2020) Сбор данных: Selenium, как скачивать файлы, Clickhouse – SQL хранилище с огромной скоростью

Материалы для тренировки
Ссылки и краткие описания

Формы контроля

Всего на курсе запланировано 5 дз в блоке "Программирование на Python" (включая финальный проект. Он большой.) и 5 дз в блоке "Python для анализа данных".

Всего на курсе ~ 10 заданий (включая проект), для получения зачета по этой части программы нужно иметь среднюю оценку не менее 4 из 10 (из расчета всех заданий по курсу, не только выполненных).

Лабораторная работа - это формат решения заданий в классе. Это не самостоятельная работа - вы можете задавать преподавателю вопросы по ходу решения. Решенные задачи будут проверяться прямо в классе. Если вы пропустили занятие или не успели сделать нужное количество заданий на семинаре, то всегда можно загрузить файл по ссылке на Dropbox к определенному дедлайну. Ссылка, информация о дедлайне и количестве выполненных заданий, необходимых для зачета по работе, будет публиковаться в конце этого файла + мы будем дублировать информацию в чат группы в Telegram.

Оценки за задания выставляются в 10-балльной шкале. Чтобы получить зачет по курсу/сертификат, необходимо иметь среднюю оценку за задания не ниже 4 баллов (из расчета всех заданий по курсу, не только выполненных). Ориентировочный срок выполнения задания - 1 неделя +- 1-2 дня. За сдачу заданий после дедлайна предусмотрен штраф 40% (максимальный балл за задание будет не 10, а 6). Исключение составляет задание про Телеграм-бота - оно более объемное и имеет относительно свободную формулировку, поэтому на него будет выделено ~ 2.5 недели. Если опоздание более двух недель, задание не проверяется.

Как работать с Github?

Для скачивания файлов с Github необязательно иметь аккаунт, достаточно кликнуть на зеленую кнопку Clone or download в правом верхнем углу, выбрать Download ZIP и распаковать архив. В папке DPO_2020_autumn будут все файлы, загруженные на Github на момент скачивания.

Если файл .ipynb сохраняется как текст или с лишним расширением (например, .txt), то нужно выбрать при сохранении тип файла все файлы, а не текст, или после сохранения убрать вручную расширение, переименовав файл.

Подробнее про работу с GitHub через клиента можно прочитать здесь

А еще очень рекомендую посмотреть вот эту ссылку Здесь в одной статье рассказана бОльшая часть того, что нужно знать про Git.

About

Python для автоматизации и анализа данных 2020 (осень)


Languages

Language:Jupyter Notebook 99.9%Language:Python 0.1%Language:HTML 0.0%