Задачи:
- Анализ существующих решений;
- Сбор данных;
- Обучение / дообучение выбранных моделей;
- Оценка моделей исходя из показателей полученных метрик (
Precision
,Recall
,Accuracy
,F1-score
) на исходном наборе данных; - Выбор наиболее оптимальной модели;
- Развёртывание наилучшей модели.
Датасет: Youtube Statistics
Датасет(дополнительный): Twitter Sentiment Dataset
Проект: comment-emotionality-classification
Youtube Statistics содержит 2 файла, в которых описаны видео и соответствующие им комментарии. В контексте решаемой задачи интересен файл с комментариями. Содержит 17995 записи, каждой из которых сопоставлена эмоциональная окраска(0,1,2). Нулевое значение представляет отрицательное настроение, тогда как значения один и два представляют нейтральное и положительное настроение соответственно. При необходимости увеличения датасета будет использован Twitter Sentiment Dataset, содержащий 162980 уникальных значений и градацию настроения от -1 до 1.
Для решения поставленной задачи: имея датасет с большим количеством комментариев, распределенных равномерно для каждой категории эмоциональной окраски мы имеем возможность дообучения сетей основанных на трансформерах для нашей задачи распознавания эмоциональной окраски текста.