VKTestTask

The solution of profile task ML engineer

submission_label.csv - файл в формате [text_type, text], где

text_type - предсказанный класс(ham/spam)
text - исходный текст

submission_score.csv - файл в формате [score, text], где

score - срез предикта модели score[:, 1], показывающий скор класса 1 (spam)
text - исходный текст

Дан тренировочный датасет с текстами сообщений из мессенджера на английском языке. Для каждого из них проставлен флаг того, является ли сообщение СПАМом. Так же дан тестовый датасет с такими же текстами сообщений, но без флага. На нем нужно будет проскорить модель и приложить результаты.

Поля датасета:

text_type - целевая переменная, флаг СПАМ/не СПАМ
text - текст сообщения.

Задача:

провести базовую аналитику по имеющимся данным,
обучить модель по тексту сообщения определять, является ли ее содержимое СПАМом (ожидается, что будут опробованы несколько подходов, из которых аргументированно выбирается наилучший; можно использовать любую библиотеку или фреймворк),
целевой метрикой при оценке работы модели будет ROC-AUC score,
произвести скоринг лучшей моделью тестовых данных, а результат записать в csv-файл в виде таблицы с колонками score и text;

Итог:

выложить код на jupyter notebook и результирующий файл со скорами модели на https://github.com отдельным проектом и поделиться ссылкой в поле для ответа.

Dipvincer / VKTestTask

VKTestTask

About

Languages