Bolyai-kéziratok
vbibolya opened this issue · comments
Digitális fénykép van minden oldalról, szövegfelismerésre kellene szoftver, majd adatbányászati (szövegbányászati) munka lenne vele. 17 ezer oldalnyi kéziratról van szó.
Ezek ha tényleg "kézzel írott kéziratok", akkor az majdnem lehetetlen. Ha gépeltek, vagy bármilyen formában nyomtatottak, akkor sem egyszerű probléma, de lehetséges. Tesseract OCR a jelenleg legjobb, nyílt forráskódú karakterfelismerő szoftver.
Hát így sajnos nagyon nehéz - mert akkor nem OCR-ra, hanem handwriting recognition-ra van szükség... De próbáljuk meg. Létrehozok egy projektet.
Nem találom a csatolmányokat..
Köszi. Hadd agyaljak ezen egy pár napig. Kipróbálok majd egy pár megoldást amikor lesz egy kis időm. Bár lehet, hogy létre kell hozzak egy "nagyon nehéz" címkét : )
Ez már meglévő projekt :) https://github.com/csaladenes/szekelydata/projects/13