- Ознакомьтесь / изучите библиотеки: — https://joblib.readthedocs.io — https://www.dask.org — https://www.ray.io
- Установите Docker (https://docs.docker.com/desktop)
- Посчитать средний балл фильмов. Подробнее в нотебуке.
- Поднять кластер локально с помощью контейнеров в Docker (делали на семинаре);
- Загрузите датасет по ценам на жилье Airbnb, доступный на kaggle.com: https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data;
- Используя Python, реализуйте скрипт mapper.py и reducer.py для расчета, и с помощью MapReduce расчитайте среднее значение и дисперсию по признаку “price” (возможно потребуются ассимптотические формулы для дисперсии);
- Подсчитайте среднее значение и дисперсию по признаку “price” в Hive;
- Собирите данные о погоде в разных городах мира за последний месяц. Используйте открытые источники данных, такие как API погодных сервисов или веб-скрейпинг.
- Выведете график изменения температуры в разных городах, график распределения температуры.
- Сохранить результаты в HDFS
- Выгрузить результаты из HDFS на локальный копьютер