hitcszq/nlp_segmention

分词程序的输入输出均使用ANSI编码但是分词用到语料（训练集，测试集）为UTF8编码，包括评测程序的输入也需要用UTF把编码因此需要执行分词程序前将用到的语料利用notepad++转化为ANSI编码，并将分词结果利用notepad++转化为UTF8编码编码，再利用评测程序评测

以上问题究其原因为C++对UTF8解码非常麻烦，而作业的预料全部为UTF8编码

About

中文分词程序，含训练集，验证集，测试脚本

Language:Groff 98.1%Language:C++ 1.9%