IlyaGusev / PoetryCorpus

Поэтический корпус русского языка

Home Page:http://poetry-corpus.ru/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Поэтический корпус русского языка

Build Status Code Climate

Пакет для анализа и синтеза стихов: https://github.com/IlyaGusev/rupo

Статистика корпуса текстов с метаинформацией

  • Символов: 13208090
  • Слов: 2186827
  • Стихотворений: 16694
  • Стихотворений, протегированных темами: 3904
  • Авторов: 195

Установка зависимостей вручную

sudo apt-get install build-essential libssl-dev libffi-dev python-dev libxslt1-dev libxslt1.1 libxml2-dev libxml2 libssl-dev
sudo pip3 install -r requirements.txt

Препроцессинг

# "Пауки", собирающие тексты с сайтов
scrapy runspider poetry/apps/corpus/spiders/klassika.py -o datasets/web/klassika.xml
scrapy runspider poetry/apps/corpus/spiders/strofa.py -o datasets/web/strofa.xml
scrapy runspider poetry/apps/corpus/spiders/themes.py -o datasets/web/themes.xml
scrapy runspider poetry/apps/corpus/spiders/rupoem.py -o datasets/web/rupoem.xml
# Скрипт объединения и дедупликации текстов, генерация xml и json версий корпуса текстов
python3 poetry/apps/corpus/scripts/unite.py

or

# Получить готовую версию корпуса
git lfs pull

Для инициализации базы данных с разметкой по слогам и ударениям

sh reset_db.sh

Запуск через Docker Compose

# Установка Docker и docker-compose
curl -sSL https://get.docker.com/ | sh
curl -L "https://github.com/docker/compose/releases/download/1.10.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
# Запуск
docker-compose up

Литература

About

Поэтический корпус русского языка

http://poetry-corpus.ru/

License:Apache License 2.0


Languages

Language:Python 65.4%Language:HTML 18.5%Language:JavaScript 13.1%Language:CSS 2.2%Language:Shell 0.8%