TheNetAdmin / zjuthesis

Zhejiang University Graduation Thesis LaTeX Template

Home Page:https://thenetadmin.github.io/zjuthesis

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于查重

TheNetAdmin opened this issue · comments

很多使用LaTeX模板的同学都碰到了查重的问题,这里简要总结一下,希望能帮到各位

已知的查重问题有这几种

1. pdf文字复制问题

有些查重系统会将pdf中的文字直接复制出来,然后作为plain text查重。

而TexLive 2018及以前的版本中,XeTeX的伪粗体会导致复制乱码,即复制pdf中的粗体文字会产生plain text乱码。

这种情况下查重系统无法识别关键字,比如‘参考文献’,从而错误地查重了‘参考文献’的内容,进而导致极高的重复率。(相关讨论见thuthesis

解决方法很简单,升级到TexLive 2019似乎就可以了。如果你坚持要使用2018及以前的版本,请去掉伪粗体设置,并手动指定粗体字体,详情见README的FAQ

2. 查重系统无法正确识别编码

XeTeX编译的pdf默认使用utf-8编码,但如果强行按照GBK编码读取,会产生大量乱码,以及重复字符,比如大量的‘路’字。

此时与其他同为utf-8的pdf比对的时候,系统会误认这些的‘路’字是抄袭,从而导致极高的正文重复率

科大的LaTeX模板在2019年碰到过查重率高的问题,我和一位同学讨论后认为是查重系统编码问题。

当然这个是查重系统本身的问题,LaTeX模板不背锅……

3. 字体嵌入的问题

这个问题多见于MacOS与Linux下编译得到的pdf,请各位同学注意。

如果你的pdf没有正确嵌入字体,会导致有些阅读器打开后看不到正文(并非所有阅读器都会出错,建议使用多种阅读器打开pdf,看是否有问题)。

解决方法也很简单,用可以看到正文的阅读器打开->打印成pdf。这样阅读器会帮你嵌入字体,我建议所有使用LaTeX模板的同学,在发送或上传pdf之前都这样操作一下。

[2019年注] 目前尚不清楚这个是否真的影响查重,但2019年有同学反映因为字体没有嵌入,一审开题报告的时候产生了很多麻烦,所以建议大家重视这个问题。

根据 #168 这样操作会导致 pdf 内的字符在查重时变成乱码,导致几乎为 0 的重复度。如出现这种情况,可使用原始 pdf 查重,而不是使用 pdf 软件转换过的文件。

我发现用TravisCI编译得到的样例pdf文件(比如这里的样例文件)就有类似的问题,大家可以尝试将其打印为pdf,并查看文件大小的变化。我操作后,pdf大小从400KB变成了1.1MB。

这个issue留作后续讨论,已经pin到主页

发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗

我以前是计算机学院的,我们的毕业论文是会查重但我们并不知道具体结果,不知道现在是不是不太一样了

字体嵌入问题主要是 latexmk 的默认参数,见 https://liam.page/2019/02/12/default-flags-for-xDVIPDFMx/ ,在 4.69a 版本才修复(http://personal.psu.edu/~jcc8/software/latexmk/versions.html )。

如果要兼容旧版本的 latexmk,可以在 latexmkrc 中设置 $xdvipdfmx = "xdvipdfmx -q -E -o %D %O %S";

发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗

您好,请问您查重的时候遇到乱码问题了吗

发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗

您好,请问您查重的时候遇到乱码问题了吗

没有,知网查重,以及最后学校查重都没有问题

我是mac+TexLive2021编译的,pdf可以正常显示但是汉字不能被复制下来,建议最后还是使用windows再编译一下,看看自己的pdf汉字部分能否复制下来。学校知网查重应该是直接复制pdf汉字进行的。