检测聊天信息中潜在的发广告
、卖星币
等言论,后续也可以对违禁词以及暴恐词的检测进行支持
所需第三方依赖,可以通过 go get -u
的方式进行安装
-
config.json
服务运行配置文件SOCK_FILE
: 服务以Unix Domain Socket 方式运行的时候sock文件的存放位置WORKSPACE
: 代码根目录,spamcheck.go文件的位置CLASSES
: 分类类别,至少2个。每个分类需要有对应的先验概率词典文件,示例:分类为adwords,则同级目录下需要有adwords.txt,字典越大,服务的分类结果越准确。DICTIONARYFILE
:sego
库分类字典,需要手动指定,文件路径为绝对路径;分词准确度可以通过自定义字典进行替换。SOCKET_BUFFER_SIZE
:服务以Unix Domain Socket的方式运行的时候,缓冲区大小,可以根据数据量的大小进行调试。
-
spamcheck.go
: 垃圾词检测主文件 -
README.md
:服务介绍文件 -
requirements.txt
: 项目依赖第三方库列表 -
*.txt
: 根据config.json 中CLASSES 指定的分类的先验概率字典。格式:一行一个,每行一个词汇
Run as 'Unix Domain Socket'
go run spamcheck.go -c ./config.json -a sock
Run as RPC
TODO