分词程序的输入输出均使用ANSI编码 但是分词用到语料(训练集,测试集)为UTF8编码,包括评测程序的输入也需要用UTF把编码 因此需要执行分词程序前将用到的语料利用notepad++转化为ANSI编码,并将分词结果利用notepad++转化为UTF8编码编码,再利用评测程序评测
以上问题究其原因为C++对UTF8解码非常麻烦,而作业的预料全部为UTF8编码
中文分词程序,含训练集,验证集,测试脚本
分词程序的输入输出均使用ANSI编码 但是分词用到语料(训练集,测试集)为UTF8编码,包括评测程序的输入也需要用UTF把编码 因此需要执行分词程序前将用到的语料利用notepad++转化为ANSI编码,并将分词结果利用notepad++转化为UTF8编码编码,再利用评测程序评测
以上问题究其原因为C++对UTF8解码非常麻烦,而作业的预料全部为UTF8编码
中文分词程序,含训练集,验证集,测试脚本