Aniezka / REALEC

Statistics on some error categories from the REALEC corpus.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

REALEC

The material was taken from a corpus containing essays in English in which errors were made by the native speakers of Russian, REALEC. The data is presented in csv format. Each ctv file contains a table with the following information: a link to an essay; the type of the error which, in the opinion of the annotator, was made by the essay author; the sentence containing this error; the word in which the error was made; correction of this error by the annotator. The project is designed to identify annotator errors as well as to optimize work with the corpus.

Материал взят из корпуса, содержащего эссе на английском языке, в которых были допущены ошибки носителями русского языка, REALEC. Данные представлены в виде файлов в формате csv. Каждый файл содержит таблицу со следующей информацией: ссылка на эссе; название ошибки, которую допустил автор эссе по мнению аннотатора; предложение, в котором содержится данная ошибка; слово, в котором допущена ошибка; исправление этой ошибки аннотатором. Проект предназначен для выявления ошибок аннотатора, а также для облегчения работы с корпусом.

About

Statistics on some error categories from the REALEC corpus.


Languages

Language:Python 100.0%