malakhovks / ken

KEn (Ukrainian, English) - is an NLP-powered network toolkit (Web service with API) for contextual and semantic analysis with document taxonomy building feature | KEn - Мережевий засіб виокремлення термінів з природномовних текстів (Українською та Англійською).

Home Page:https://ken.e-rehab.pp.ua

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

UnicodeDecodeError: 'utf8' codec can't decode byte

malakhovks opened this issue · comments

Файл декодується як UTF-8, при цьому файл містить неправильне кодуванняinvalid UTF-8

Розшифровано файл як UTF-8, ігноруючи будь-які символи які закодовані в неправильному кодуванні.

# decode the file as UTF-8 ignoring any errors
raw_text = file.read().decode('utf-8', errors='replace')

Виправлено