Dies ist ein kleines Tool, um die Scans der Mitteilungen des Vereins für Geschichte und Heimatpflege Soest e. V. zu ansehnlichen, durchsuchbaren PDFs zu verarbeiten.
Ganz bestimmt gibt es bessere Wege – beispielsweise könnte ich Pillow
auch verwenden, um convert
zu ersetzen – aber so ist das Projekt eben gewachsen und gut genug.
Benötigt werden:
- Kommandozeilen-Tools:
pdftoppm
→ Popplerconvert
→ ImageMagickunpaper
img2pdf
ocrmypdf
- Python-Pakete
click
Pillow
Dann kann das Tool wie folgt aufgerufen werden:
./main.py [OPTIONS] input.pdf output.pdf
pdftoppm Scan-PDFs/Mitteilungen_20.pdf PPMs/Mitteilungen_20
convert PPM-orig/Mitteilungen_20-8.ppm -normalize -colorspace HSL -channel lightness -fx 'min(1.0,u.b*1.075)' -colorspace RGB -colorspace Gray PPM-convert/Mitteilungen_20-8.ppm
unpaper --overwrite --layout double --output-pages 2 --no-blackfilter --no-noisefilter --no-blurfilter --no-grayfilter --no-mask-scan --no-mask-center --no-deskew --no-wipe --no-border --no-border-scan --no-border-align PPM-convert/Mitteilungen_20-%d.ppm PPM-unpaper/Mitteilungen_20-%d.ppm
ocrmypdf -l deu PDF-img2pdf/Mitteilungen_20.pdf PDF-OCR/Mitteilungen_20.pdf