Обработка текста
Датасет: study.mokoron.com
Тональный словарь: Rusentilex
Задача 1: из всей базы данных (MySQL: 17 млн.строк) выгрузить пять отдельных csv-файлов.
Правила, по которым выгружаются файлы:
- смайлик и слово противоположной тональности к смайлику
- содержат по крайней мере два слова противоположной тональности из словаря
- с частицами «не» или «ни» и смайлик
- со смайликом, но нет оценочных слов
- с двумя разными смайликами.
Для каждого пункта надо создать csv-файл, в котором лежит список исходных твитов (без предобработки) + то, что там нашлось (если два слова – то будет две колонки).
Название csv-файла в зависимости от правила:
- emoticon_token
- two_tokens
- not_token
- emoticon_no_token
- two_emoticons