The solution of profile task ML engineer
submission_label.csv - файл в формате [text_type, text], где
- text_type - предсказанный класс(ham/spam)
- text - исходный текст
submission_score.csv - файл в формате [score, text], где
- score - срез предикта модели score[:, 1], показывающий скор класса 1 (spam)
- text - исходный текст
Дан тренировочный датасет с текстами сообщений из мессенджера на английском языке. Для каждого из них проставлен флаг того, является ли сообщение СПАМом. Так же дан тестовый датасет с такими же текстами сообщений, но без флага. На нем нужно будет проскорить модель и приложить результаты.
Поля датасета:
- text_type - целевая переменная, флаг СПАМ/не СПАМ
- text - текст сообщения.
Задача:
- провести базовую аналитику по имеющимся данным,
- обучить модель по тексту сообщения определять, является ли ее содержимое СПАМом (ожидается, что будут опробованы несколько подходов, из которых аргументированно выбирается наилучший; можно использовать любую библиотеку или фреймворк),
- целевой метрикой при оценке работы модели будет ROC-AUC score,
- произвести скоринг лучшей моделью тестовых данных, а результат записать в csv-файл в виде таблицы с колонками score и text;
Итог:
- выложить код на jupyter notebook и результирующий файл со скорами модели на https://github.com отдельным проектом и поделиться ссылкой в поле для ответа.