infoculture / hackathon-ranepa

Данные, задачи и полезные ссылки для участников хакатона "Цифровой рост" 16-22 июня 2019

Home Page:http://hackathonranepa.ru

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Задача классификации свойств товара по его названию // Эвотор

xiunja opened this issue · comments

Товар описывают восемь свойств:

  • Производитель
  • Бренд
  • Саб-бренд
  • Тип
  • Алкоголь
  • Объем
  • Тип упаковки
  • Мультипак
    Описания могут содержать некоторое кол-во ошибок и пропуски.
    Образцы правильного описания представлены в таблице 2.

Совокупность некоторых свойств дает целевое название товара, согласно следующему синтаксису:
"Бренд" - "Саб-бренд" - "Тип" - "Алкоголь"% - "Объем" л "Тип упаковки" x"Мультипак"

На вход поступают "грязные" названия и цена, необходимо понять какие свойства они описывают, либо каких свойств нехватает в описании, и нельзя предугадать. Из полученных свойств собирается название.

Пример:
на входе - "Пиво 500мл Св.Артуа св5.0%ж ", 65 руб

На выходе:

  • Производитель: AB InBev
  • Бренд: STELLA ARTOIS
  • Саб-бренд: -
  • Тип: Светлое
  • Алкоголь: 5%
  • Объем: 0,5
  • Тип упаковки: ж.б.
  • Мультипак: 0
    Наименование: "STELLA ARTOIS - светлое - 5% - 0.5л ж.б."

Оценка будет проходить по кол-ву правильно определенных свойств.

В таблице 1 предложены сырые данные, в которых одному баркоду соответствует несколько различных описаний.

Предложить решение, которое позволило бы выбирать наиболее близкое к стандартному описание из имеющихся в сырых данных (таблица 1).