Пакет для анализа и синтеза стихов: https://github.com/IlyaGusev/rupo
- Символов: 13208090
- Слов: 2186827
- Стихотворений: 16694
- Стихотворений, протегированных темами: 3904
- Авторов: 195
sudo apt-get install build-essential libssl-dev libffi-dev python-dev libxslt1-dev libxslt1.1 libxml2-dev libxml2 libssl-dev
sudo pip3 install -r requirements.txt
# "Пауки", собирающие тексты с сайтов
scrapy runspider poetry/apps/corpus/spiders/klassika.py -o datasets/web/klassika.xml
scrapy runspider poetry/apps/corpus/spiders/strofa.py -o datasets/web/strofa.xml
scrapy runspider poetry/apps/corpus/spiders/themes.py -o datasets/web/themes.xml
scrapy runspider poetry/apps/corpus/spiders/rupoem.py -o datasets/web/rupoem.xml
# Скрипт объединения и дедупликации текстов, генерация xml и json версий корпуса текстов
python3 poetry/apps/corpus/scripts/unite.py
or
# Получить готовую версию корпуса
git lfs pull
sh reset_db.sh
# Установка Docker и docker-compose
curl -sSL https://get.docker.com/ | sh
curl -L "https://github.com/docker/compose/releases/download/1.10.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
# Запуск
docker-compose up
- Брейдо, 1996, Автоматический анализ метрики русского стиха
- Каганов, 1996, Лингвистическое конструирование в системах искусственного интеллекта
- Козьмин, 2006, Автоматический анализ стиха в системе Starling
- Гришина, 2008, Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования
- Пильщиков, Старостин, 2012, Автоматическое распознавание метра: проблемы и решения
- Барахнин, 2015, Алгоритмы комплексного анализа русских поэтических текстов с целью автоматизации процесса создания метрических справочников и конкордансов, сама система