fengmy / Text_Review

本项目旨在识别长短文本中的敏感词,并对整段/句文本进行语义分类,从而达到文本审核的目的

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

基于敏感词和语义分析的文本审核系统

Text_Review jasonlbx13
Source https://github.com/jasonlbx13/Text_Review
Keywords text review

中文文档

简介

  • 快速识别敏感词

    本项目含约6w左右敏感词库,可识别政治/暴恐/色情/赌博等网络常见敏感词.在使用过程中,可根据用户需要增、改、删、查敏感词.

  • fasttext语义分析

    利用爬虫抓取的贴吧正样本和境外反动网站所爬取的长短预料文本,对fasttext模型进行训练.预训练模型在/ai/flp中,可识别正常涉政,违规涉政和正常.

  • cherry文本分类

    使用cherry文本分类库,对输入语段进行政治/正常/色情/赌博四个类别进行分类.

安装

本项目支持python3.6版本(其他版本未测试,但必须为python3),不需要cuda即可使用

git clone https://github.com/jasonlbx13/Text_Review
cd Text_Review
pip install -r requirements.txt

快速开始

About

本项目旨在识别长短文本中的敏感词,并对整段/句文本进行语义分类,从而达到文本审核的目的


Languages

Language:Python 89.3%Language:Jupyter Notebook 10.5%Language:Dockerfile 0.1%