Python 6 Data Science

HomeWork # 06

Завдання:

Завдання 1

У цьому завданні вам потрібно завантажити цей датасет. Ми з вами вже працювали з ним коли вивчали pandas. Це все так само Топ-50 книг, що найбільше продаються на Amazon в період з 2009 по 2019 роки. Потрібно виконати таке:

Створити спарк сесію.
Прочитати датасет до датафрейму.
Використовуючи тільки RDD обчислити середню ціну всіх книг, у яких рейтинг вищий за 4.7
Побудувати гістограму розподілу рецензій (стовпець Reviews).
Побудувати матрицю кореляції для стовпців "User Rating", "Reviews" та "Price".
Використовуючи бібліотеку seaborn побудувати парні графіки (pairplots) стовпців "User Rating", "Reviews" та "Price".

Завдання 2

Під час виконання цього завдання можна використовувати лише Spark SQL. Для датасету з попереднього завдання виконайте таке:

Знайдіть автора із найвищим рейтингом.
Знайдіть трьох авторів із найнижчим рейтингом.
Визначте, який автор отримав найбільшу кількість рецензій.
Визначте, який автор написав найбільшу кількість книг за весь доступний у даних період.
Визначте, яка книга жанру "Fiction" має найменший рейтинг.
Визначте, яка книга жанру "Non Fiction" має найвищий рейтинг.

Завдання 3

Побудуйте гістограму середньої кількості рецензій за роками. У вигляді окремої гістограми візуалізуйте кількість книг жанру "Fiction" та "Non Fiction" за весь доступний період.

Автор

Володимир Кравченко

Написати автору листа

VlodyaKr / Python-6-Data-Science-HomeWork-06