ParonStatistics

Программа для подсчёта статистики по морфемным паронимам и построения словаря.

IDE: раньше - проект Microsoft Visual Studio 2010, теперь CMake. Можно как обновить проект, так и заново создать проект на основе CMakeLists.txt

Язык: C++, вспомогательные утилиты - Python.

Содержит следующие директории/файлы:

CrossLexica - вспомогательные утилиты, вычисление коэффициента смысловой близости
lib - сторонние библиотеки liblinear, wingetopt
results - итоговые файлы подсчета статистики, построенные словари и т.д.
src - исходный код
false_paronyms.txt, false_paronyms_1.txt, true_paronyms.txt, true_second.txt, KVAZI.TXT - файлы для обучающего множества.
petAffixes.txt, negative.txt - файлы для вычисления некоторых признаков (уменьшительно-ласкательные суффиксы, отрицательные префиксы)
RED.TXT - словарь Красных для оценки критериев
run.sh, RunMe.bat, no_training.sh - скрипты командной строки для запуска исполняемого файла и облегчения использования аргументов командной строки. В частности, no_training.sh только загружает классификатор из файла, без обучения.

Аргументы командной строки

ParonStatistics.exe [-e <num>] [-l <num>] [-w <num>] [-c <load_cl>] [-s <save_cl>] <input_file> <output_file> [ <statistics_file> [<error_file>] ]

-e <num> - (необязательный) максимальное количество слов-примеров для статистики, по умолчанию 0

-l <num> - (необязательный) количество колонок в файле выводе статистики. Используется для удобства вывода.

-w <num> - (необязательный) максимальная длина слова, по умолчанию 25 символов (рекомендуется использование значения по умолчанию)

-c <load_cl> - (необязательный) загрузка классификатора из файла без обучения

-s <save_cl> - (необязательный) сохранение обученного классификатора в файл

<input_file> - путь ко входному файлу (PARON1.TXT)

<output_file> - путь к выходному файлу.

<statistics_file> - (необязательный) путь к файлу для вывода статистики.

<error_file> - (необязательный) путь к файлу для вывода ошибок, найденных во входном файле.

Выходной файл

Содержит словарь, построенный по аффиксальному критерию. Однако, параллельно с ним во вспомогательные файлы выводятся отдельные словари для каждого используемого критерия, в частности SVN.txt для машинного критерия. В файл статистики выводится основная статистика, статистика по отдельным префиксам/суффиксам выводится в файлы prefixes.txt, suffixes.txt, roots.txt

Отладочная информация

В ходе работы программы на экран выводятся:

количество положительных/отрицательных примеров (если есть обучение классификатора)
отладочная информация liblinear (если есть обучение классификатора)
паронимы, входящие в словарь Красных и не удовлетворяющие машинному критерию (выбор конкретного критерия в будущем лучше вынести в параметр)
оценка критериев
для каждого критерия: покрытие словаря Красных, полнота по отрицательным примерам обучающего множества, F-мера.
объёмы построенных словарей по различным критериям

cmc-msu-ai / ParonStatistics

ParonStatistics

Аргументы командной строки

Выходной файл

Отладочная информация

About

Languages