书签的提取机制请教
czmmiao opened this issue · comments
Zhimin Chen commented
Hello Kevin,
想请教下,书签是如何提取的,是对文档内容进行扫描还是识别文档的前几页,判断是否存在目录再根据目录进行提取?
谢谢
Kevin Li commented
软件提供的“书签提取”功能是需要PDF文件本身含有书签信息(比如通过WPS或福昕的书签菜单可以查看)才能提取的,可以通过pymupdf的api实现(https://pymupdf.readthedocs.io/en/latest/document.html#Document.get_toc),但是你的描述应该侧重于如何识别文档目录,如果PDF本身含有目录可以通过OCR目录页提取,此外软件的“识别书签”菜单下目前还提供了根据字体属性和基于OCR两种方法,前者需要用户手动标注标题属性,然后软件寻找相同属性的文本生成书签,后者PaddleOCR可以自动区分标题和正文生成书签
Zhimin Chen commented
感谢解答!
我们正在做一个利用llm进行文档对话的项目,不知道有没有兴趣互相了解下?
Kevin Li commented
可以的,微信交流一下? 我微信是kevin2li