Dipvincer / VKTestTask

The solution of profile task ML engineer

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

VKTestTask

The solution of profile task ML engineer

submission_label.csv - файл в формате [text_type, text], где

  • text_type - предсказанный класс(ham/spam)
  • text - исходный текст

submission_score.csv - файл в формате [score, text], где

  • score - срез предикта модели score[:, 1], показывающий скор класса 1 (spam)
  • text - исходный текст

Дан тренировочный датасет с текстами сообщений из мессенджера на английском языке. Для каждого из них проставлен флаг того, является ли сообщение СПАМом. Так же дан тестовый датасет с такими же текстами сообщений, но без флага. На нем нужно будет проскорить модель и приложить результаты.

Поля датасета:

  • text_type - целевая переменная, флаг СПАМ/не СПАМ
  • text - текст сообщения.

Задача:

  • провести базовую аналитику по имеющимся данным,
  • обучить модель по тексту сообщения определять, является ли ее содержимое СПАМом (ожидается, что будут опробованы несколько подходов, из которых аргументированно выбирается наилучший; можно использовать любую библиотеку или фреймворк),
  • целевой метрикой при оценке работы модели будет ROC-AUC score,
  • произвести скоринг лучшей моделью тестовых данных, а результат записать в csv-файл в виде таблицы с колонками score и text;

Итог:

  • выложить код на jupyter notebook и результирующий файл со скорами модели на https://github.com отдельным проектом и поделиться ссылкой в поле для ответа.

About

The solution of profile task ML engineer


Languages

Language:Jupyter Notebook 100.0%