brown-uk / corpus

Браунський корпус української мови

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

  • misc - допоміжні файли
  • data - фрагменти текстів, зібрані для корпусу
    • good - перевірені фрагменти, написані літературною українською мовою
    • so-so - перевірені фрагменти, що містять помилки
    • bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
    • unprocessed - фрагменти, що чекають на перевірку
  • doc - документація: вимоги до фрагментів та рішення щодо мовних питань
  • scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Команда

  • Василь Старко
  • Андрій Рисін
  • Ольга Гавура
  • Наталія Чейлитко
  • Мар’яна Романишин
  • Настасія Осідач
  • Катерина Альошкіна
  • Катерина Бобровник
  • Христина Кулак
  • Оксана Кунікевич
  • Тетяна Матвєєва
  • Ірина Возна
  • Ян Бутельський

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

Інші проекти

  • ВЕСУМ - Великий електронний словник української мови
  • LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
  • lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів

About

Браунський корпус української мови


Languages

Language:Groovy 64.9%Language:Python 34.0%Language:Shell 0.8%Language:Batchfile 0.4%