valerymamontov/text_analysis

Обработка текста

Датасет: study.mokoron.com
Тональный словарь: Rusentilex

Задача 1: из всей базы данных (MySQL: 17 млн.строк) выгрузить пять отдельных csv-файлов.
Правила, по которым выгружаются файлы:

смайлик и слово противоположной тональности к смайлику
содержат по крайней мере два слова противоположной тональности из словаря
с частицами «не» или «ни» и смайлик
со смайликом, но нет оценочных слов
с двумя разными смайликами.

Для каждого пункта надо создать csv-файл, в котором лежит список исходных твитов (без предобработки) + то, что там нашлось (если два слова – то будет две колонки).
Название csv-файла в зависимости от правила:

emoticon_token
two_tokens
not_token
emoticon_no_token
two_emoticons

valerymamontov / text_analysis

Обработка текста

About

Languages