AlfaBattle2.0
Репозиторий с базовыми решениями ко второй задаче чемпионата.
В задаче требуется решить задачу кредитного скоринга только на основании карточных транзакций клиента.
Особенности датасета:
- Огромный объем: 1.5m объектов, 450m строк данных, 6gb данных.
- Максимальная детализация данных: 19 признаков на каждую транзакцию, пользовательская история глубиной в год (до 8к транзакций на клиента).
Структура репозитория:
baseline_boosting - решение на основание градиентного бустинга
|-- baseline.ipynb(0.737 AUC ROC Public LB) - ноутбук с решением задачи
|-- features.py - методы для генерации признаков
utils.py - методы для пакетного чтения и предобработки данных