NotBioWaste905 / web_corpora

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Корпус отзывов на мультфильмы

Собрание отзывов на мультфильмы "Головоломка" и "Тачки 2" на английском языке

Распределение обязанностей

  • Ангелина Степанова — сбор текстов и метаинформации
  • Анастасия Гобова — морфологический анализатор
  • Андрей Чиркин — сайт, функция поиска
    Тестирование и презентация выполнены совместно

Сбор текстов и метаинформации

С помощью краулера собираются отзывы и оценка (от 1 до 10), ник автора, ссылка на страницу с отзывом, дата написания, название мультфильма, студия, жанры и дата релиза.
Данные записываются в csv-таблицу.
Вот как это выглядит

Морфологический анализатор

Мы использовали библиотеку Spacy, которая позволяет проводить морфологический анализ. Каждый отзыв делится на массив из предложений, потом это превращается в массив из токенов (у которых есть начальная форма и пос тег). В файле "morphological analyzer" создается отдельный scv-файл с мета-информацией для каждого слова в отзыве (нормальная форма, исходная форма и часть речи).

Сайт и функция поиска

...

Ссылка на корпус:

About


Languages

Language:Jupyter Notebook 79.6%Language:Python 18.0%Language:HTML 2.5%