Times125 / ML--Native-Bayes

一个基于朴素贝叶斯算法的新闻文本分类器

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ML--Native-Bayes

描述:

  • 实现一个朴素贝叶斯分类器,用于新闻文本分类;
  • 利用了TF-IDF算法进行特征提取,并构建特征库;
  • 主要使用nltk自然语言处理工具包;
  • 数据集来自爬虫在国外新闻网站采集的各类新闻;
  • src-02 是新闻分类器,src是《机器学习实战》一书中提供的代码;
  • material 目录是挑选的各类新闻集合,用于构建特征库以及训练集和测试集;
  • test 目录是分类器训练集和测试集;
  • features 目录是提取的各类文本的特征库和保存的训练模型;
  • verify 目录是用来测试模型的各类新闻数据;
  • model 目录是存放的训练模型,解压使用;
  • 目前分类器可以对英语的文化,政治,环境,能源,科技,环境,经济进行分类,对法语的经济,互联网,政治,社会进行分类;
  • 分类准确率为86%;

About

一个基于朴素贝叶斯算法的新闻文本分类器


Languages

Language:Python 100.0%