У цьому завданні вам потрібно завантажити цей датасет. Ми з вами вже працювали з ним коли вивчали pandas
. Це все так само Топ-50 книг, що найбільше продаються на Amazon в період з 2009 по 2019 роки. Потрібно виконати таке:
- Створити спарк сесію.
- Прочитати датасет до датафрейму.
- Використовуючи тільки RDD обчислити середню ціну всіх книг, у яких рейтинг вищий за 4.7
- Побудувати гістограму розподілу рецензій (стовпець Reviews).
- Побудувати матрицю кореляції для стовпців "User Rating", "Reviews" та "Price".
- Використовуючи бібліотеку seaborn побудувати парні графіки (pairplots) стовпців "User Rating", "Reviews" та "Price".
Під час виконання цього завдання можна використовувати лише Spark SQL. Для датасету з попереднього завдання виконайте таке:
- Знайдіть автора із найвищим рейтингом.
- Знайдіть трьох авторів із найнижчим рейтингом.
- Визначте, який автор отримав найбільшу кількість рецензій.
- Визначте, який автор написав найбільшу кількість книг за весь доступний у даних період.
- Визначте, яка книга жанру "Fiction" має найменший рейтинг.
- Визначте, яка книга жанру "Non Fiction" має найвищий рейтинг.
Побудуйте гістограму середньої кількості рецензій за роками. У вигляді окремої гістограми візуалізуйте кількість книг жанру "Fiction" та "Non Fiction" за весь доступний період.