kbss-cvut / annotace

Annotace is a text annotation service for Czech and English. It is used for support annotations in TermIt

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MorphoDiTa-based annotation looses spaces between sentences

ledsoft opened this issue · comments

When annotating a text with MorphoDiTa-based lemmatizer, the result does not contain spaces after the period of the previous sentence. For example (annotations removed for readability):

...je popis fyzického vystavěného prostředí hl. m. Prahy jako sídla v krajině. Kniha řeší stavby a prostor...

becomes:

je popis fyzického vystavěného prostředí hl. m. Prahy jako sídla v krajině.Kniha řeší stavby a prostor...

The Spark-based lemmatizer does not suffer from this issue.

Note that the old annotation service (czech-text-analysis) does not suffer from this issue. Also, other stop characters like , do not cause the same issue either.