Thewillman / Software-Homework-Paper-check

Something I struggle for

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Software-Enginneering-Practice

Something I struggle for
这个仓库负责本次软工实践的作业提交,泪目了兄弟们
test.py是主程序
2020.9.9
目前的论文计算公式是分段后每段的相似度加权(这段字数占总文本字数的比值)计算为总文本的相似度orz
目前的思路是以逗号为分割点把文本分段然后把每个句子用jieba分词形成列表
利用gensim库生成语料库计算原文稀疏矩阵的相似度,然后算每个抄袭句子对应的原文句子的相似度加权求和
dis系列文本相似度很低,算法上需要修改
2020.9.15
修改的差不多了,基本上是jieba分词+gensim里的TF-IDF模型计算余弦相似度这样

About

Something I struggle for


Languages

Language:Python 100.0%Language:Rich Text Format 0.0%