建议改几个地方

Question

建议改几个地方

chamwen opened this issue 6 years ago · comments

主函数中：

1.避免输出时输出一堆找不到字体warning

import logging
logging.Logger.propagate = False
logging.getLogger().setLevel(logging.ERROR)

2.pdf转成txt之后至少进行一些正则匹配，下面是我加的

def pdf_to_word(pdf_file_path, word_file_path):
    content = read_from_pdf(pdf_file_path)
    content = re.compile(r'([0-9a-zA-Z_])\n([0-9a-zA-Z_])').sub(r'\1 \2', content)
    content0 = re.compile(r'(-)\n([0-9a-zA-Z_])').sub(r'\2', content)
    content1 = re.compile(r' \n ').sub(r'', content0)
    content_2 = re.compile(r'([^.])\n').sub(r'\1', content1)
    content_compile = re.compile(r'\(cid:\d{1,2}\)').sub(r'', content_2)
    save_text_to_word(content_compile, word_file_path)

Zhiya · Answer 1 · Thu Apr 26 2018 11:21:46 GMT+0800 (China Standard Time)

谢谢建议，请问下上面的正则是为了解决什么问题？

Wen Zhang · Answer 2 · Fri Apr 27 2018 10:54:25 GMT+0800 (China Standard Time)

处理英文文献PDF时，一般论文都是分两栏的，转换之后会出现每一行只有一半有内容（有很多没用的换行符）。简单来说就是处理一些多余的换行，特殊符号乱码等问题

Zhiya · Answer 3 · Fri Apr 27 2018 11:45:05 GMT+0800 (China Standard Time)

了解，能否提一个pull request？