MorphoDiTa-based annotation looses spaces between sentences
ledsoft opened this issue · comments
When annotating a text with MorphoDiTa-based lemmatizer, the result does not contain spaces after the period of the previous sentence. For example (annotations removed for readability):
...je popis fyzického vystavěného prostředí hl. m. Prahy jako sídla v krajině. Kniha řeší stavby a prostor...
becomes:
je popis fyzického vystavěného prostředí hl. m. Prahy jako sídla v krajině.Kniha řeší stavby a prostor...
The Spark-based lemmatizer does not suffer from this issue.
Note that the old annotation service (czech-text-analysis) does not suffer from this issue. Also, other stop characters like ,
do not cause the same issue either.