guoruibiao / spamcheck

基于朴素贝叶斯分类的垃圾词检测

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

spamcheck

检测聊天信息中潜在的发广告卖星币等言论,后续也可以对违禁词以及暴恐词的检测进行支持


DEPENDENCY

所需第三方依赖,可以通过 go get -u 的方式进行安装

EXPLAINATION

  • config.json 服务运行配置文件

    • SOCK_FILE: 服务以Unix Domain Socket 方式运行的时候sock文件的存放位置
    • WORKSPACE: 代码根目录,spamcheck.go文件的位置
    • CLASSES: 分类类别,至少2个。每个分类需要有对应的先验概率词典文件,示例:分类为adwords,则同级目录下需要有adwords.txt,字典越大,服务的分类结果越准确。
    • DICTIONARYFILEsego库分类字典,需要手动指定,文件路径为绝对路径;分词准确度可以通过自定义字典进行替换。
    • SOCKET_BUFFER_SIZE:服务以Unix Domain Socket的方式运行的时候,缓冲区大小,可以根据数据量的大小进行调试。
  • spamcheck.go: 垃圾词检测主文件

  • README.md:服务介绍文件

  • requirements.txt: 项目依赖第三方库列表

  • *.txt: 根据config.jsonCLASSES 指定的分类的先验概率字典。格式:一行一个,每行一个词汇

USAGE

  • Run as 'Unix Domain Socket'
go run spamcheck.go -c ./config.json -a sock
  • Run as RPC
TODO

About

基于朴素贝叶斯分类的垃圾词检测


Languages

Language:Go 51.4%Language:PHP 29.9%Language:Python 13.0%Language:Shell 5.7%