关于查重
TheNetAdmin opened this issue · comments
很多使用LaTeX模板的同学都碰到了查重的问题,这里简要总结一下,希望能帮到各位
已知的查重问题有这几种
1. pdf文字复制问题
有些查重系统会将pdf中的文字直接复制出来,然后作为plain text查重。
而TexLive 2018及以前的版本中,XeTeX的伪粗体会导致复制乱码,即复制pdf中的粗体文字会产生plain text乱码。
这种情况下查重系统无法识别关键字,比如‘参考文献’,从而错误地查重了‘参考文献’的内容,进而导致极高的重复率。(相关讨论见thuthesis)
解决方法很简单,升级到TexLive 2019似乎就可以了。如果你坚持要使用2018及以前的版本,请去掉伪粗体设置,并手动指定粗体字体,详情见README的FAQ。
2. 查重系统无法正确识别编码
XeTeX编译的pdf默认使用utf-8编码,但如果强行按照GBK编码读取,会产生大量乱码,以及重复字符,比如大量的‘路’字。
此时与其他同为utf-8的pdf比对的时候,系统会误认这些的‘路’字是抄袭,从而导致极高的正文重复率。
科大的LaTeX模板在2019年碰到过查重率高的问题,我和一位同学讨论后认为是查重系统编码问题。
当然这个是查重系统本身的问题,LaTeX模板不背锅……
3. 字体嵌入的问题
这个问题多见于MacOS与Linux下编译得到的pdf,请各位同学注意。
如果你的pdf没有正确嵌入字体,会导致有些阅读器打开后看不到正文(并非所有阅读器都会出错,建议使用多种阅读器打开pdf,看是否有问题)。
解决方法也很简单,用可以看到正文的阅读器打开->打印成pdf。这样阅读器会帮你嵌入字体,我建议所有使用LaTeX模板的同学,在发送或上传pdf之前都这样操作一下。
[2019年注] 目前尚不清楚这个是否真的影响查重,但2019年有同学反映因为字体没有嵌入,一审开题报告的时候产生了很多麻烦,所以建议大家重视这个问题。
根据 #168 这样操作会导致 pdf 内的字符在查重时变成乱码,导致几乎为 0 的重复度。如出现这种情况,可使用原始 pdf 查重,而不是使用 pdf 软件转换过的文件。
我发现用TravisCI编译得到的样例pdf文件(比如这里的样例文件)就有类似的问题,大家可以尝试将其打印为pdf,并查看文件大小的变化。我操作后,pdf大小从400KB变成了1.1MB。
这个issue留作后续讨论,已经pin到主页
发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗
我以前是计算机学院的,我们的毕业论文是会查重但我们并不知道具体结果,不知道现在是不是不太一样了
字体嵌入问题主要是 latexmk
的默认参数,见 https://liam.page/2019/02/12/default-flags-for-xDVIPDFMx/ ,在 4.69a 版本才修复(http://personal.psu.edu/~jcc8/software/latexmk/versions.html )。
如果要兼容旧版本的 latexmk
,可以在 latexmkrc
中设置 $xdvipdfmx = "xdvipdfmx -q -E -o %D %O %S";
。
发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗
您好,请问您查重的时候遇到乱码问题了吗
发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗
您好,请问您查重的时候遇到乱码问题了吗
没有,知网查重,以及最后学校查重都没有问题
我是mac+TexLive2021编译的,pdf可以正常显示但是汉字不能被复制下来,建议最后还是使用windows再编译一下,看看自己的pdf汉字部分能否复制下来。学校知网查重应该是直接复制pdf汉字进行的。