cystanford / text_classification

中文文档分类数据集

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

text_classification

中文文档分类数据集 配套陈旸老师的《人人都听得懂的清华大学数据挖掘》里的练习 数据说明: 1、文档共有4中类型:女性、体育、文学、校园 2、训练集放到train文件夹里,测试集放到test文件夹里。停用词放到stop文件夹里。 请使用朴素贝叶斯分类对训练集进行训练,并对测试集进行验证,并给出测试集的准确率。

About

中文文档分类数据集


Languages

Language:Python 100.0%