annnyway / wikingrams

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Магистратура НИУ ВШЭ

НИС 2018

WikiNgrams - часть проекта "Культуромика"

Выполнено Николаевой Анной

  • Telegram: @annnyway

Куратор проекта:

  • Орехов Борис Валерьевич

Описание

Цель проекта “Культуромика” - автоматизация и улучшение качества исследований в этой области.

Основная идея культуромики в том, что частотность употребления слов в книгах отражает важные культурные тренды. Для поиска трендов часто используется датасет Google Ngrams и ресурс Google Books Ngram Viewer. Он показывает, как менялась частота слова или фразы на протяжении времени, на основе статистики из Google Books. Это знание можно сопоставлять с событиями из культурной и общественной жизни.

Мы подумали, что процесс поиска закономерностей между языком и культурой можно автоматизировать, и взглянули на Google Ngrams как на большие данные. Пропустив их через сито статистики(https://www.wikidata.org/wiki/Wikidata:Main_Page), мы связали датасет c Викиданными, чтобы автоматически определять события, повлиявшие на рост частотности n-грамм русского языка. Анализ данной работы можно прочесть в наброске статьи (c.3-18). На с.3 указан основной пайплайн работы с Викиданными.

Результат: примеры утверждений из Викиданных, совпавших по годам с ростом частот в Google ngrams, можно найти тут.

Ресурс с визуализацией проделанной работы, где каждый может провести свое культурономическое мини-исследование - WikiNgram Viewer

About


Languages

Language:Jupyter Notebook 94.0%Language:Python 6.0%