kevin2li / PDF-Guru

PDF Guru Anki是一款以PDF为中心的多功能办公学习工具箱软件，包含四大板块功能：PDF实用工具箱、Anki制卡神器、Anki最强辅助、视频笔记神器，软件功能众多且强大，熟练运用可以大幅提高办公和学习效率，绝对是您不可多得的效率神器。人生苦短，我用Guru!

https://guru.kevin2li.top/

书签的提取机制请教

czmmiao opened this issue a year ago · comments

Zhimin Chen commented a year ago

Hello Kevin,

想请教下，书签是如何提取的，是对文档内容进行扫描还是识别文档的前几页，判断是否存在目录再根据目录进行提取？

谢谢

Kevin Li commented a year ago

软件提供的“书签提取”功能是需要PDF文件本身含有书签信息(比如通过WPS或福昕的书签菜单可以查看)才能提取的，可以通过pymupdf的api实现(https://pymupdf.readthedocs.io/en/latest/document.html#Document.get_toc)，但是你的描述应该侧重于如何识别文档目录，如果PDF本身含有目录可以通过OCR目录页提取，此外软件的“识别书签”菜单下目前还提供了根据字体属性和基于OCR两种方法，前者需要用户手动标注标题属性，然后软件寻找相同属性的文本生成书签，后者PaddleOCR可以自动区分标题和正文生成书签

Zhimin Chen commented a year ago

感谢解答！

我们正在做一个利用llm进行文档对话的项目，不知道有没有兴趣互相了解下？

Kevin Li commented a year ago

可以的，微信交流一下？我微信是kevin2li