xterrafunny / nlp_in_practice_receipts

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Постановка задачи

Данные чеков ОФД содержат детальную информацию о тратах клиентов. Они помогают улучшать качество моделей кредитного скоринга и склонности к банковским продуктам, а также улучшать пользовательский опыт за счет структуризации трат клиентов в мобильном приложении. Однако работа с этим источником затрудняется его неструктурированностью: вся информация о купленном товаре лежит в одной строке произвольного формата.

В предположении что каждая чековая позиция описывает какой-либо товар, наименование этого товара, а также его бренд, являются главной информацией, которую можно извлечь из чека. По итогу задача структуризации этих данных ограничивается выделением и нормализацией1 брендов и товаров.

Данные

Участникам соревнования предоставляются два датасета с чековыми позициями, размеченный и неразмеченный:

  • в размеченном датасете для каждой чековой позиции указаны нормализованные бренды и товары входящие в нее в исходном виде.
  • в неразмеченном датасете даны только сами чековые позиции.

Для запуска бейзлана необходимо положить оба этих датасета, а также тестовый датасет в текущую папку.

Структура репозитория

  • requirements.txt - необходимые пакеты (рекомендуемая версия Python - 3.10)
  • train_fasttext.ipynb - ноутбук для обучения FastText
  • baseline.ipynb - ноутбук с бейзлайном

About


Languages

Language:Jupyter Notebook 100.0%