hitcszq / nlp_segmention

中文分词程序,含训练集,验证集,测试脚本

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

分词程序的输入输出均使用ANSI编码 但是分词用到语料(训练集,测试集)为UTF8编码,包括评测程序的输入也需要用UTF把编码 因此需要执行分词程序前将用到的语料利用notepad++转化为ANSI编码,并将分词结果利用notepad++转化为UTF8编码编码,再利用评测程序评测

以上问题究其原因为C++对UTF8解码非常麻烦,而作业的预料全部为UTF8编码

About

中文分词程序,含训练集,验证集,测试脚本


Languages

Language:Groff 98.1%Language:C++ 1.9%