colynhn/text_classification_textcnn

1、数据集：

(1) 数据集来源：今日头条中文新闻（文本）分类数据集

2、数据集处理：

(1) 说明：14分类，完整数据集每类2w数据

(2) 输入原始数据集：labeled_toutiao_cat_data.txt

(3) 代码：word2vec/handle_data.py

(4) 生成数据 handled_data/seg_pure_data.txt

3、训练词向量：

(1) 输入处理后数据：seg_pure_data.txt

(2) 代码：word2vec/word2vec_model.py

(3)训练后model：save_model/word2vec.model saved_model/word2vec.txt

4、textCNN训练：

(1)小数据集：python text_cnn.py 0

(2)完整数据集：python text_cnn.py 1

5、结果：

train: loss: 0.5536235570907593, acc: 0.8205128205128205, precision: 0.7136054421768707, recall: 0.6882456828885399, f_beta: 0.6967303093486196

（1）数据存在分类模棱两可的情况：即分到哪一类都太合适的情况

（2）数据采用char级别训练可能效果更好

（3）其他，blablablablablabla 待研究

参考：

shout to 以上大佬s

                                                                       peace & love

colynhn / text_classification_textcnn