brown-uk / nlp_uk

This is a project to demonstrate NLP API from LanguageTool for Ukrainian language.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Лематизація/стемінг слів, яких немає у словнику

40rn05lyv opened this issue · comments

Доброго дня,
Шукав імплементацію стемера українською і натрапив на цей проект. Цікавить як буде поводитись алгоритм лематизації, якщо задати слово, якого немає у словнику? Залишить його без змін чи все ж якось обробить? Не знайшов відповідь на це у описі проекту.
Ну і чи планується імплементувати таку функціональність у майбутньому?

Вітання, наразі у нас реалізовано лише лематизатор, а не стеминг, тож невідомі слова лишаються, як є. Теоретично в задумах є спробувати зробити деякий стеминг або евристичний лематизатор, зокрема це дуже б допомогло українському аналізатору повнотекстового пошуку в Lucene/ElasticSearch (що використовується в українській Вікіпедії) і навіть є деякі напрацювання (зокрема аналіз можливих закінчень слів). Але українська морфорлогія досить складна тож якісна реалізація потребує значного зусилля, і поки важко сказати, коли буде час це зробити.

Ясно, дякую за відповідь :)