datacoon / russiannames

Russian names parsers, gender identification and processing tools

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Некоторые фамилии определяет неверно

EugeneRymarev opened this issue · comments

Приветствую!
Фамилию "Афанасьева" определяет, как отчество.
Могу сюда добавлять и другие, которые ошибочно определяет по мере нахождения.

  • Антанович тоже в отчество определило, но тут хотя бы есть на то причины - это похоже на мужское отчество. На деле это несклоняемая фамилия.
  • Емельянова опять отчество, хотя отчество "Емельяновна" было бы.
  • Степанова
  • Михайлович - думаю аналогично первому варианту определилось в отчество

Да, это ошибка в базе, некоторое количество фамилий случайно оказались в таблице отчеств. Я запущу валидацию.
Пока быстрый патч для MongoDB - удалить эти фамилии из таблицы midnames
use names
db.midnames.remove({'text' : 'Афанасьева'})
db.midnames.remove({'text' : 'Емельянова'})
db.midnames.remove({'text' : 'Степанова'})

С фамилиями на "ич" сложнее, тут всегда могут быть неоднозначности

  • Андреева
  • Гаврилова

Сейчас обрабатываю базу клиентов и иногда встречается такое, что отчество стоит перед именем и russiannames определяет его сразу в фамилии, хотя это точно отчество - Григорьевна Мария

  • Константинова

Закрыто как давно не обновлявшееся