Deriq-Qian-Dong / ArticleChecking

文本查重小程序

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

文本查重小程序

1.运行环境

win10

python 3.x

gensim 3.4.0

python-docx 0.8.7

jieba 0.39

2.程序截图

Fig1.主界面

Fig2.查重结果界面

Fig3.导出的csv截图

3.思路

读取.txt或.docx文档,提取其中的文字,丢弃文档中的图片,将所有文字20个一组切分,然后丢入百度查询。

Fig4.百度查询结果示例

爬取查询结果中的每一段红字及其超链接,用tfidf模型计算与原句子的相似度,达到粗略查重的目的

About

文本查重小程序


Languages

Language:Python 100.0%