fortunto2 / panacea_ocr

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Распознование табличных данных на фотографиях с медицинскими анализами

Приложение созданно в рамках хакатона ТилТех (Санкт-Петербург, 17-19 ноября 2017 )

http://tealtechmedhack.sci-guide.com/

Алгоритм и источники идей

Исправление картинки

1 Повернуть изображение

2 Кроп и исправление перспективы

https://www.pyimagesearch.com/2014/09/01/build-kick-ass-mobile-document-scanner-just-5-minutes/

3 Биноризация

python lib/process_image.py out/2.crop.png out/3.binar.png

Работа с текстом

Выделение таблиц

Выделение строк

Распознование текста

Коррекция текста

Распознование рукописных цифр

INSTALL

python 2.7

venv

virtualenv venv -p python2
source venv/bin/activate

Tesseract

Tesseract - распознование текста

Надо поставить 4 версию

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
sudo apt install tesseract-ocr

Rus

Установить русский язык, можно скачав отсюда

wget https://github.com/tesseract-ocr/tessdata/blob/master/rus.traineddata

и скопировать сюда /usr/share/tesseract-ocr/tessdata

или /usr/share/tesseract-ocr/4.00/tessdata

custom dictonary

https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-provide-my-own-dictionary https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data

rus.user-words

About


Languages

Language:Jupyter Notebook 81.5%Language:JavaScript 8.7%Language:CSS 4.2%Language:Python 3.5%Language:Shell 1.9%Language:HTML 0.2%