Описание проекта

Название проекта: comment-emotionality-classification

Цель: Определить эмоциональную окраску комментариев пользователя.

Авторы: Проскурин Глеб Егорович (P4141), Мангараков Александр Дмитриевич (P4141)

Задачи:

Анализ существующих решений;
Сбор данных;
Обучение / дообучение выбранных моделей;
Оценка моделей исходя из показателей полученных метрик (Precision, Recall, Accuracy,F1-score) на исходном наборе данных;
Выбор наиболее оптимальной модели;
Развёртывание наилучшей модели.

Датасет: Youtube Statistics
Датасет(дополнительный): Twitter Sentiment Dataset

Проект: comment-emotionality-classification

Описание датасета и целесообразность его использования:

Youtube Statistics содержит 2 файла, в которых описаны видео и соответствующие им комментарии. В контексте решаемой задачи интересен файл с комментариями. Содержит 17995 записи, каждой из которых сопоставлена эмоциональная окраска(0,1,2). Нулевое значение представляет отрицательное настроение, тогда как значения один и два представляют нейтральное и положительное настроение соответственно. При необходимости увеличения датасета будет использован Twitter Sentiment Dataset, содержащий 162980 уникальных значений и градацию настроения от -1 до 1.

Целесообразность использования датасета:

Для решения поставленной задачи: имея датасет с большим количеством комментариев, распределенных равномерно для каждой категории эмоциональной окраски мы имеем возможность дообучения сетей основанных на трансформерах для нашей задачи распознавания эмоциональной окраски текста.

Niruksorp / comment-emotionality-classification