fediq / Rosbank

Rosbank ML competition.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Rosbank

Rosbank ML competition.

Здесь приводятся основные элементы обработки данных, дающие 1-е место по первой задаче и 2-е место по второй.

train.csv и test.csv - начальные данные необходимо скачать САМОСТОЯТЕЛЬНО. В данных ноутбуках они везде обозначаются как init_train и init_test, в то время как train и test - уже обработанные данные.

soltion_presentation.pdf - презентация, немного позволяющая понять, что происходит в решении

utils.ipynb - обработка изначальных данных.

rosbank.py - содержит одну единственную функцию cashflow, преобразующую данные о пользователе в словарь

time.ipynb - обработка времени

money.ipynb - обработка денежной информации

mcc.time - обработка времени с учетом МСС-кодов. Пока без комментариев

mcc.money - обработка денег с учетом МСС-кодов. Аналогично без комментариев

файлы "handcrafted_mcc_features.npy" и "mcc_codes.npy" содержат инфу об мсс кодах. Первый словарь получен частично с помощью тематического моделирования, частично вручную. Второй массив - данные с сайта mcc-codes.ru. Это словари. Открывать с помощью np.load(путь к файлу).item()

About

Rosbank ML competition.


Languages

Language:Jupyter Notebook 96.4%Language:Python 3.6%