PdfSplitter

pdf中文词频统计解决方案

初衷是为了解决一位朋友大规模 CNKI 中文文献内容词频统计的需求

作者使用此方法处理了数百篇 pdf 文件且达到了预期效果

在项目内包含了两个 pdf 文件用于示例（其中一篇内容不正常）

pdfminer.six

jieba分词

pandas

pip install pdfminer.six

for /r %i in (pdfs\*.pdf) do pdf2txt.py pdfs\%~ni.pdf -o txts\%~ni.txt

python splitter.py

About

将pdf转为txt然后进行分词，并进行词频统计

Language:Python 100.0%