cmc-msu-ai / ParonStatistics

Program for counting some statistics of paronyms.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ParonStatistics

Программа для подсчёта статистики по морфемным паронимам и построения словаря.

IDE: раньше - проект Microsoft Visual Studio 2010, теперь CMake. Можно как обновить проект, так и заново создать проект на основе CMakeLists.txt

Язык: C++, вспомогательные утилиты - Python.

Содержит следующие директории/файлы:

  • CrossLexica - вспомогательные утилиты, вычисление коэффициента смысловой близости
  • lib - сторонние библиотеки liblinear, wingetopt
  • results - итоговые файлы подсчета статистики, построенные словари и т.д.
  • src - исходный код
  • false_paronyms.txt, false_paronyms_1.txt, true_paronyms.txt, true_second.txt, KVAZI.TXT - файлы для обучающего множества.
  • petAffixes.txt, negative.txt - файлы для вычисления некоторых признаков (уменьшительно-ласкательные суффиксы, отрицательные префиксы)
  • RED.TXT - словарь Красных для оценки критериев
  • run.sh, RunMe.bat, no_training.sh - скрипты командной строки для запуска исполняемого файла и облегчения использования аргументов командной строки. В частности, no_training.sh только загружает классификатор из файла, без обучения.

Аргументы командной строки

ParonStatistics.exe [-e <num>] [-l <num>] [-w <num>] [-c <load_cl>] [-s <save_cl>] <input_file> <output_file> [ <statistics_file> [<error_file>] ]

-e <num> - (необязательный) максимальное количество слов-примеров для статистики, по умолчанию 0

-l <num> - (необязательный) количество колонок в файле выводе статистики. Используется для удобства вывода.

-w <num> - (необязательный) максимальная длина слова, по умолчанию 25 символов (рекомендуется использование значения по умолчанию)

-c <load_cl> - (необязательный) загрузка классификатора из файла без обучения

-s <save_cl> - (необязательный) сохранение обученного классификатора в файл

<input_file> - путь ко входному файлу (PARON1.TXT)

<output_file> - путь к выходному файлу.

<statistics_file> - (необязательный) путь к файлу для вывода статистики.

<error_file> - (необязательный) путь к файлу для вывода ошибок, найденных во входном файле.

Выходной файл

Содержит словарь, построенный по аффиксальному критерию. Однако, параллельно с ним во вспомогательные файлы выводятся отдельные словари для каждого используемого критерия, в частности SVN.txt для машинного критерия. В файл статистики выводится основная статистика, статистика по отдельным префиксам/суффиксам выводится в файлы prefixes.txt, suffixes.txt, roots.txt

Отладочная информация

В ходе работы программы на экран выводятся:

  • количество положительных/отрицательных примеров (если есть обучение классификатора)
  • отладочная информация liblinear (если есть обучение классификатора)
  • паронимы, входящие в словарь Красных и не удовлетворяющие машинному критерию (выбор конкретного критерия в будущем лучше вынести в параметр)
  • оценка критериев
  • для каждого критерия: покрытие словаря Красных, полнота по отрицательным примерам обучающего множества, F-мера.
  • объёмы построенных словарей по различным критериям

About

Program for counting some statistics of paronyms.


Languages

Language:C++ 52.7%Language:C 33.9%Language:Python 12.4%Language:Shell 0.7%Language:M 0.3%Language:MATLAB 0.0%