szekelydata / blog

SZÉKELYDATA | Erdély, Székelyföld és a nagyvilág a Big Data korszakában

Home Page:https://szekelydata.csaladen.es

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Bolyai-kéziratok

vbibolya opened this issue · comments

Digitális fénykép van minden oldalról, szövegfelismerésre kellene szoftver, majd adatbányászati (szövegbányászati) munka lenne vele. 17 ezer oldalnyi kéziratról van szó.

Ezek ha tényleg "kézzel írott kéziratok", akkor az majdnem lehetetlen. Ha gépeltek, vagy bármilyen formában nyomtatottak, akkor sem egyszerű probléma, de lehetséges. Tesseract OCR a jelenleg legjobb, nyílt forráskódú karakterfelismerő szoftver.

Hát így sajnos nagyon nehéz - mert akkor nem OCR-ra, hanem handwriting recognition-ra van szükség... De próbáljuk meg. Létrehozok egy projektet.

Nem találom a csatolmányokat..

Köszi. Hadd agyaljak ezen egy pár napig. Kipróbálok majd egy pár megoldást amikor lesz egy kis időm. Bár lehet, hogy létre kell hozzak egy "nagyon nehéz" címkét : )