prohogiy90 / e-commerce_goods_category_prediction

Prediction of goods category by text description

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

e-commerce_goods_category_prediction

Тестовое задание на позицию стажера Data science в KazanExpress

Задача

На нашем маркетплейсе ежедневно появляются сотни новых товаров. Однако, проверить правильность заполнения информации обо всех товарах сразу невозможно. Неверно определенная категория зачастую приводит к потенциально упущенной прибыли как со стороны продавца, так и со стороны маркетплейса. Мы хотим научиться предсказывать категорию на основе описания, картинки и других параметрах товаров.

Формат входных данных

train.parquet - pandas.DataFrame с товарами на маркетплейсе. У каждого товара есть:

  • product_id - идентификатор товара
  • text_fields - строка-словарь со следующими полями:
    • title - заголовок
    • description - описание
    • attributes - на сайте они находятся в карточке товара
    • custom_characteristics, defined_characteristics, filters - вложенные словари с ключами – названиями полей-признаков и значениями – возможными значениями этих признаков (например, Цвет: Белый / Черный)
  • rating - средний рейтинг товара
  • sale - флаг, обозначающий находится ли товар в распродаже
  • shop_id (seller_id) - id магазина (id-продавца)
  • shop_title - название магазина
  • category_id - категория товара (таргет)
  • category_name - название категории товара с точки зрения дерева категорий KazanExpress

test.parquet - файл, идентичный train.parquet, ****но без реального category_id, именно его вам и предстоит предсказать.

About

Prediction of goods category by text description


Languages

Language:Jupyter Notebook 100.0%