- 实现一个朴素贝叶斯分类器,用于新闻文本分类;
- 利用了TF-IDF算法进行特征提取,并构建特征库;
- 主要使用nltk自然语言处理工具包;
- 数据集来自爬虫在国外新闻网站采集的各类新闻;
- src-02 是新闻分类器,src是《机器学习实战》一书中提供的代码;
- material 目录是挑选的各类新闻集合,用于构建特征库以及训练集和测试集;
- test 目录是分类器训练集和测试集;
- features 目录是提取的各类文本的特征库和保存的训练模型;
- verify 目录是用来测试模型的各类新闻数据;
- model 目录是存放的训练模型,解压使用;
- 目前分类器可以对英语的文化,政治,环境,能源,科技,环境,经济进行分类,对法语的经济,互联网,政治,社会进行分类;
- 分类准确率为86%;