Software-Enginneering-Practice

Something I struggle for
这个仓库负责本次软工实践的作业提交，泪目了兄弟们
test.py是主程序
2020.9.9
目前的论文计算公式是分段后每段的相似度加权（这段字数占总文本字数的比值）计算为总文本的相似度orz
目前的思路是以逗号为分割点把文本分段然后把每个句子用jieba分词形成列表
利用gensim库生成语料库计算原文稀疏矩阵的相似度，然后算每个抄袭句子对应的原文句子的相似度加权求和
dis系列文本相似度很低，算法上需要修改
2020.9.15
修改的差不多了，基本上是jieba分词+gensim里的TF-IDF模型计算余弦相似度这样

About

Something I struggle for

Languages

Language:Python 100.0%Language:Rich Text Format 0.0%