gheyret / UyghurOCR

Simple Uyghur OCR with Tesseract

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于lstm和box标注结果

SilvaQ opened this issue · comments

ياخشىمۇسىز، سىزدىن ئىككى مەسىلىنى سۇراپ باقسام:

  1. ئامباردىكى ھازىرقى ukij نىڭ تىل بولىقى پەقەت يىڭى سۆزلۈك قۇشۇپ مەشىقلەندۈرۈلگەنمۇ ياكى ھەرىپلەرنىڭ ئوردىناتى خاتا بولۇش مەسىلىسىگە قارىتامۇ تۈزۈتۈلۈش كىرگۈزۈلگەنمۇ ؟
  2. ھازىرقى lstm تىل بولىقىدا box ھاسىللاپ ھەرىپلەرنىڭ ئوردىناتىنى كۆرۈپ باقتىم خاتالىقلار ناھايتى كۆپكەن، كوردىناتنىڭ توغرا بولماسلىقىنىڭ ئاخىرقى نەتىجىگە بولغان تەسىرى زور دەپ قارايمەن، لېكىن شۇنچە خاتا كوردىناتلاردا يەنە نىمىشقا پەرىقلەندۈرۈش نەتىجىسىنىڭ بەك زور خاتا بولمىغانلىقىغا ھەيراق قالدىم، بۇنىڭدا بىرەر ھېكمەت بارمۇ قانداق؟. بىز نىشانلىق قىلىپ بىر بىرلەپ ھەرىپلەرنىڭ ئوردىناتىنى تۈزۈتۈپ قايتىدىن مەشىقلەندۈرۈپ ئىشلەتسەك پەرىقلەندۈرۈش ئۈنۈمى تېخىمۇ يۇقىرى كۆتۈرىلەمدۇ ياكى ئ‍وخشىمىغان نىشانغا يۇلۇققاندا شۇ ماتىرىيالغا قارىتا ئوردىناتىنى توغرىلاش قىلىپ قايتا مەشىقلەندۈرگەن ئەۋزەل بۇلارمۇ ؟

image

مومكىن بولسا ئايرىم بىر ئامبار قوزغۇتۇپ مەشىقلەندۈرگەن خامماتىرىياللارنى ساقلاپ ماڭساق، شۇنداق بولغاندا يىڭىلاش ۋە يىڭىسىدە نىمە ئۆزگۈرۈش بولغانلىقىنى بىلىشكە تېخىمۇ قۇلاي بولىدىكەن

Salam,

  1. "ukij.traineddata" dégini eslidiki "uig.traineddata" dégen bolaqni asas qilip, UKIJ ning basmida ishlitilidighan fontliri ishlitip qaytidin ögetken bolaqtur.

  2. Tesseract we hazirqi OCR sistémiliri burunqidek "Sözlerni Herplerge Parchilash" usulini qollanmaydu. bu sewebtin siz dégendek körünüshte "Herpler toghra ayrilmighandek" körünidu. LSTM téxnikisi we ögetkende CTC algorizimi ishlitish arqiliq herplerni toghra tonuyalaydu. Bu téxnika awwal awaz tonushta qollinilghan bolup, hazir OCR da keng kölemde ishlitiliwatidu.
    Burun Ereb yéziqigha oxshash yéziqlarni tonushta herplerge parchilash eng müshkül ish idi. hazir herplerge parchilash usulini ishletmeydighan boldi.

Hazir UyghurOCR ning tonush iqtidari xeli yaxshi bolghachqa "Hazirqi Zaman Uyghur Edebiy Tilining Imla Lughiti" ni tonutup uni tekistni hasil qilish projectni bashlap qoydum. xata yerlirini tuzitip, her kuni 3-4 betni githubqa yollap qoyuwatimen. Xataliq kop bolghan bolsa belkim buni qilmas idim.

https://github.com/gheyret/imlalughet

مومكىن بولسا ئايرىم بىر ئامبار قوزغۇتۇپ مەشىقلەندۈرگەن خامماتىرىياللارنى ساقلاپ ماڭساق، شۇنداق بولغاندا يىڭىلاش ۋە يىڭىسىدە نىمە ئۆزگۈرۈش بولغانلىقىنى بىلىشكە تېخىمۇ قۇلاي بولىدىكەن

Bu pikiringiz bekmu orunluq.

Men ukij fontlirini ishlitip qayta ogitish usuli we buyruqlarni xatirlep, addiy bir mezmun teyyarlash uchun,

https://github.com/gheyret/tessdata_uyghur

ni qurghan idim. emma waqit sewebidin toluq tamamlanmay qaldi.

ھە ئەسلىدە مۇنداق ئىش ئىكەندە ، مەن قېنى سىز دىگەن بىلىم ئاساسىدا يېڭى نەشىرىنى يەنە بىر تەتقىق قىلىپ باقاي، باشقا مەسىلىلەر بولسا يەنە داۋاملىق ئىنكاس قالدۇرۇپ ماڭاي.

بۇ قېتىم بىر ۋەزىپىنى تاماملاشنى مەخسەت قىلىپ ھەپىلىشىپ قالدىم، بۇ جەھەتتە ئاساسىي بىلىمىم كەمچىل، سىزنىڭ تېخىمۇ كۆپرەك تەجرىبە ساۋاق يازمىلىرىڭىزنى كۆرۈشكە پۇرسەت بوپ قالار.

مەنمۇ ئىۋۇ ئىككى تۈرگە يېقىندىن كۆزقۇلاق بولغاچ بىرەر ئ‍ەھمىيەتلىك نەتىجە بولسا ھەمبەھىرلەي، رەھمەت سىزگە

Hazir Fontlarni ishlitip ogitidighan hojjetlerni(resim we mas tekistlerni) hasil qilip ogettim.
Mumkin bolsa scan qilinghan resimni qurlargha bolup, qurlarning tekistlirini hasillap, shu resim bilen shu tekistni ishlitip ogetse tonush nispiti teximu yuqirilaydu.
Hazir Uyghurche uchun bundaq bir ambar mewjut emes.

Hazir Fontlarni ishlitip ogitidighan hojjetlerni(resim we mas tekistlerni) hasil qilip ogettim. Mumkin bolsa scan qilinghan resimni qurlargha bolup, qurlarning tekistlirini hasillap, shu resim bilen shu tekistni ishlitip ogetse tonush nispiti teximu yuqirilaydu. Hazir Uyghurche uchun bundaq bir ambar mewjut emes.

مەن ئورگاننىڭ مەشىقلەندۈرگەن تىل بولىقىنى يېشىپ كۈرۈپ باقتىم، ئاساسلىقى ئەرەب تىلى ئاساسىدا قىلغان بولغاچقىمىكىن نۇرغۇن بىز لازىم قىلمايدىغان ھەرىپ بەلگىلەر ۋە سۆزلۈكلەر مەشىقلەندۈرۈشكە قاتناشقان ئىكەن.
سىزنىڭ مەشىقلەندۈرگېنىڭىزنى كۆردۈم سىزمۇ مۇشۇلارغا قارىتا بەلگىلىك تازىلاش ئېلىپ بارغاندەك تۇرىسىز، سۇڭا سىز مەشىقلەندۈرۈپ چىققاندىكىسىدە قالايمىقان ھەرىپلەر كۆپ چىقىۋالمايدىكەن.

قۇرغا ئايرىش مەسىلىسىنى مەن opencv دىن جاۋاب چىقىپ قالامدىكى دەپ ئىزدىنىپ باقتىم، كىتابتىكى مەزمۇنلارنى قۇرغا پارچىلاش ئىمكانىيىتى چوڭكەن، بىرى بىزنىڭ قۇرلارنىڭ ئارلىقى ئېنىق بولغان ھەتتە ئۆزىمىز نىسبەت تۇرغۇزۇپ رەسىمنى كەسسەكمۇ خېلىق توغرا قۇرغا پارچىلىنىدكەن. يەنە بىرىدە سىز دىگەندەك ئىپتىدائىي ocr دەك ئوڭدىن سولدىن ئاستى ئۈستىدىن پىرويىكسىيەلەپ داغ ئورنىغا ھۆكۈم قىلىش دىگەندەك شەكىللەر ئارقىلىق قۇر ئورنىنى پەرىقلەندۈرگىلى بولىدىغان چىراي. لېكىن سىناپ باقمىدىم.

CTC دىگەنلەرنى ۋە ئالاقىدار ئالگېرىزىملارنى بىرقۇر چۈشىنىپ باقتىم.
شۇلاردىن قارىغاندا ھازىر پەقەت كۆپ مىقداردا ماتىرىيال ھاسىل قىلىپ مەشىقلەندۈرۈپ مودۇل ھاسسللىساقلا بولىدىغان چىراي.
لېكىن بۇنداق يولنى تۇتقاندا tesseract سەل دەۋىرنىڭ ئارقىسىدا ھېسابلىنامدۇ قانداق؟. قارىسام lstm سەل دەۋرى ئ‍ۆتكەن چىراي.
بىر قانچە تۈرگە قارىسام ھەممىسى ئالاقىدار ئالگورىزىملارنى ئىشلىتىپ Pytorch دىگەندەكلەر ئاساسىدا ماشىنىلىق مەشىقلەندۈرىدىكەن. بىزنىڭ تىلىمىزنى مەشىلەندۈرگەنلىرىمۇ باركەن قارىسام ئۈنۈمى قېلىشمايدىكەن مانىڭدىن، مەشىقلەندۈرۈش ھەم ئاسانكەن، ھەم ئ‍ۈنۈمى زوركەن . شۇ سەل بىلىم تەلەپ قىلىپ قالىدىكەن، قارىسام سىز بۇنى ئاللىبۇرۇن ئىزدىنىشكە باشلاپسىز.

يەنە بىر مەن تازا ئاڭقىرالمىغان يېرىم. tesseract دې بىرلا خەتتە مەشىقلەندۈرگەن بىلەن كۆپ خىل خەتتە مەشىقلەندۈرگەننىڭ ئۈنۈمى ئوخشىمايدىكەن، ھەم شۇنداق بولىشى كىرەك، ماشىنىلىق ئۆگۈنۈشتە بىز پەقەت رەسىم ۋە شۇ رەسىمنىڭ مەزمۇنىنى دەپلا بەرسەك قالغىنى بىلەن كارىمىز بولمىسىمۇ بولىدىكەن،لېكىن tesseract بىز رەسىمنى ۋە خەتنى دەپ بىرىدىكەنمىز، شۇنىڭدىن قارىغاندا ئىككىسىنىڭ ئاساسى يۈنۈلىشى ئ‍وخشاش، ئىش بىجىرىش يولى ئ‍وخشىمامدۇ ؟ ئەگەر بۇ نوقتىدىن قارىغاندا قانداق ھاسىل قىلىشتىن قەتئىي نەزەر رەسىم ۋە شۇ رەسىمنىڭ مەزمۇنىنى دەپ بىرىپ ئۆگۈتىدىغان ماشىنىلىق ئ‍ۆگۈنۈشنىڭ ئۈنۈمى مانىڭدىن يۇقىرى بولىدەپ دەپ چۈشەندىم مەن، مۇشۇ ئويلىغانلىرىمغا قارىتا بىر تۈزىتىش بەرگەن بولسىڭىز.

Hazir Fontlarni ishlitip ogitidighan hojjetlerni(resim we mas tekistlerni) hasil qilip ogettim. Mumkin bolsa scan qilinghan resimni qurlargha bolup, qurlarning tekistlirini hasillap, shu resim bilen shu tekistni ishlitip ogetse tonush nispiti teximu yuqirilaydu. Hazir Uyghurche uchun bundaq bir ambar mewjut emes.

مەن ئورگاننىڭ مەشىقلەندۈرگەن تىل بولىقىنى يېشىپ كۈرۈپ باقتىم، ئاساسلىقى ئەرەب تىلى ئاساسىدا قىلغان بولغاچقىمىكىن نۇرغۇن بىز لازىم قىلمايدىغان ھەرىپ بەلگىلەر ۋە سۆزلۈكلەر مەشىقلەندۈرۈشكە قاتناشقان ئىكەن. سىزنىڭ مەشىقلەندۈرگېنىڭىزنى كۆردۈم سىزمۇ مۇشۇلارغا قارىتا بەلگىلىك تازىلاش ئېلىپ بارغاندەك تۇرىسىز، سۇڭا سىز مەشىقلەندۈرۈپ چىققاندىكىسىدە قالايمىقان ھەرىپلەر كۆپ چىقىۋالمايدىكەن.

Buning sewebi Organ terep meshiqlendururushte ishletken materyallarning ichidiki Uyghurche tekistning shundaq qalaymiqan nersiler bolgachqa shundaq bolghan(bir qisim Uyghurchida ishlitilmeydighan erebche herplerni Uyghurche dep qarighan, esli tekist shundaq qalaymiqan nersiler bilen tolghan).
https://github.com/tesseract-ocr/langdata_lstm/tree/main/uig

قۇرغا ئايرىش مەسىلىسىنى مەن opencv دىن جاۋاب چىقىپ قالامدىكى دەپ ئىزدىنىپ باقتىم، كىتابتىكى مەزمۇنلارنى قۇرغا پارچىلاش ئىمكانىيىتى چوڭكەن، بىرى بىزنىڭ قۇرلارنىڭ ئارلىقى ئېنىق بولغان ھەتتە ئۆزىمىز نىسبەت تۇرغۇزۇپ رەسىمنى كەسسەكمۇ خېلىق توغرا قۇرغا پارچىلىنىدكەن. يەنە بىرىدە سىز دىگەندەك ئىپتىدائىي ocr دەك ئوڭدىن سولدىن ئاستى ئۈستىدىن پىرويىكسىيەلەپ داغ ئورنىغا ھۆكۈم قىلىش دىگەندەك شەكىللەر ئارقىلىق قۇر ئورنىنى پەرىقلەندۈرگىلى بولىدىغان چىراي. لېكىن سىناپ باقمىدىم.

CTC دىگەنلەرنى ۋە ئالاقىدار ئالگېرىزىملارنى بىرقۇر چۈشىنىپ باقتىم. شۇلاردىن قارىغاندا ھازىر پەقەت كۆپ مىقداردا ماتىرىيال ھاسىل قىلىپ مەشىقلەندۈرۈپ مودۇل ھاسسللىساقلا بولىدىغان چىراي. لېكىن بۇنداق يولنى تۇتقاندا tesseract سەل دەۋىرنىڭ ئارقىسىدا ھېسابلىنامدۇ قانداق؟. قارىسام lstm سەل دەۋرى ئ‍ۆتكەن چىراي. بىر قانچە تۈرگە قارىسام ھەممىسى ئالاقىدار ئالگورىزىملارنى ئىشلىتىپ Pytorch دىگەندەكلەر ئاساسىدا ماشىنىلىق مەشىقلەندۈرىدىكەن. بىزنىڭ تىلىمىزنى مەشىلەندۈرگەنلىرىمۇ باركەن قارىسام ئۈنۈمى قېلىشمايدىكەن مانىڭدىن، مەشىقلەندۈرۈش ھەم ئاسانكەن، ھەم ئ‍ۈنۈمى زوركەن . شۇ سەل بىلىم تەلەپ قىلىپ قالىدىكەن، قارىسام سىز بۇنى ئاللىبۇرۇن ئىزدىنىشكە باشلاپسىز.

LSTM gerche kona algorothim bolsimu, uzluksiz(yeni awaz we yeziqtek ulinip kelgen) uchurlarni bir terep qilishta yenila eng unumluk(hazir Transformer uning ornini alghan bolsimu). Tesseracttiki texnikilar gerche konirap qalghandek korunsimu, u C tilida yezilghan bolghachqa, Telefonlarda, Windows, MAC hemmiside ishleydu. hem CPU bolsila yeterlik. emma yeqinqi texnikilar bolsa GPU bolmisa "ademni saqlitip qoyidu", hem her xil OS we APP lerde ishlitish qolaysiz. shunga yenila tesseract kop ishlitilidu. Elwette Python da tuzulgen hem Uyghurchini qollaydighan OCR lar bar. emma men ularni sinap baqmidim.

يەنە بىر مەن تازا ئاڭقىرالمىغان يېرىم. tesseract دې بىرلا خەتتە مەشىقلەندۈرگەن بىلەن كۆپ خىل خەتتە مەشىقلەندۈرگەننىڭ ئۈنۈمى ئوخشىمايدىكەن، ھەم شۇنداق بولىشى كىرەك، ماشىنىلىق ئۆگۈنۈشتە بىز پەقەت رەسىم ۋە شۇ رەسىمنىڭ مەزمۇنىنى دەپلا بەرسەك قالغىنى بىلەن كارىمىز بولمىسىمۇ بولىدىكەن،لېكىن tesseract بىز رەسىمنى ۋە خەتنى دەپ بىرىدىكەنمىز، شۇنىڭدىن قارىغاندا ئىككىسىنىڭ ئاساسى يۈنۈلىشى ئ‍وخشاش، ئىش بىجىرىش يولى ئ‍وخشىمامدۇ ؟ ئەگەر بۇ نوقتىدىن قارىغاندا قانداق ھاسىل قىلىشتىن قەتئىي نەزەر رەسىم ۋە شۇ رەسىمنىڭ مەزمۇنىنى دەپ بىرىپ ئۆگۈتىدىغان ماشىنىلىق ئ‍ۆگۈنۈشنىڭ ئۈنۈمى مانىڭدىن يۇقىرى بولىدەپ دەپ چۈشەندىم مەن، مۇشۇ ئويلىغانلىرىمغا قارىتا بىر تۈزىتىش بەرگەن بولسىڭىز.

Hazirqi Deep Learning texnikisida her xil texnikilar bar bolsimu, Supervised Learning yenila asasliq orunda turidu. yeni "soal jawab" ni teyyarlap uni oginishke saqlimiz, jawabi bolmisa, oginelmeydu shu. Shunga "Soal-Jawablar" yeni Dataset degen intayin muhim boliwatidu.
Tesseract ta gerhce men aldinqi inkasta yazghan "Resim-Tekist" ni teyyar qilalmighan ehwalda, Tekist we Fontlardin ozlikidin Dataset yasaydighan iqtidari bolghachqa, font - tekist bilenmu xeli yaxshi unumg erishkili bolidu. Hem bir nechche bolaqni birleshturse unumi teximu yaxshi bolidu. shunga men, UyghurEditPP da ukij fontini asas qilip ogetken bolaq bilen organ teminligen bolaq ikkilisini teng ishlitidighan qilip tengshep qoyghan.

CTC algorithimi bolghachqa hazir Awaz tonushmu xeli asasnliship qaldi. hazir shu az "Soal-Jawab" bilen unumluk meshiqlendurush we toghriliq derijisini yuqiri koturush degendek tetqilatlar elip beriliwatidu.

https://github.com/gheyret/uyghur-asr-ctc

we

https://github.com/gheyret/uyghur-asr-transformer

ningda men ikki xil Uyghurche awaz tonush sistemisini we meshiqlendurulgen netijini chiqirip qoyghan idim. Bulargha hazir "Soal-Jawab" yeterlik emes, shunga toghriliqini bek yaxhsi dep ketkili bolmaydu. Yeterlik "Soal-Jawab" teyyarlash uchun, tordiki sistemilarghimu Uyghurchini iltimas qilip qoshturghan, gerche birer yildin ashqan bolsimu 100 saetlik awaz ambiri("Soal Jawab") teyyar bolmidi. buni sharayitingiz yar berse, bilidighanlargha teshwiq qilip qoysingiz.
(Ozum 200 saetlik awaz ambir yasap, meshiqlenduruwatimen)

https://commonvoice.mozilla.org/ug

مەن نۆلدىن باشلاپ ئۆزەم قايتا مەشىقلەندۈرۈپ كۈرۈپ باقتىم، بەش نەشىرىدىن باشلاپ tesstrain تۈرىنى تەمىنلىگەن ئىكەن، مەشىقلەندۈرۈش قەدەم باسقۇچلىرى ئاسانلىشىپتۇ. لېكىن ھازىر بىر ئىككى مەسىلە سەل توختىتىپ قويدى، سىزدىن سۇراپ باقاي دەپ ئۇچۇر يېزىشىم :
بىرىنجى، ئەگەر تېكىست ۋە رەسىمنى ئۆزىمىز باشقا قۇراللارنى ئىشلىتىپ ھاسىللىساق، text2image قۇرالىنى ئىشلەتمەيلا ھاسىللانغان رەسىم. بۇ ئەھۋالدا tessetrain دا مەن ھېچ بىر خەت نۇسخىسى كۆرسىتىپ بىرىدىغان يەر باردەك كۆرمىدىم، مەشىقلەندۈرگەندە خەت نۇخسىسى بىھاجەتمۇ؟ okfonts دىگەن ھۆججەت شۇمىكىن دىدىم لېكىن كودىنى كۆرسەم ھېچيەردە ئىشلەتمەپتۇ، شۇنداقلا يەنە ئۆزىمىزنىڭ خەت تىمىملىكىنى كۆرسىتىپ بىرىدىغان يېرىمۇ يوقكەن. tesstrain تۈرى پەقەتلا رەسىم ۋە تېكىست تەلەپ قىلىدىكەن . شۇنداق بولغاندا ماشىنىلىق ئۆگۈنۈشكە ئوخشاش رەسىم ۋە تېكىسنىڭ ماشلىق مۇناسىۋەت ئالاھىدىلىكىدىن پايدىلىنىپ مودۇل ھاللىغۇدەك دەپ ئويلىدىم. لېكىن مەن ھاسىللىغان رەسىم تېكىسلەرنىڭ سانىنىڭ ئاز كۆپلىكى ئاخىرقى نەتىجىگە تەسىر كۆرسىتەلمايۋاتىدۇ.

image

مەن يۈز،مىڭ، ئونمىڭ پارچە رەسىمنى مەشىقلەندۈرۈش ئوبىكتى قىلىپ سىناپ باقتىم. ئۇچۇرنى قانچە كۆپەيتسەممۇ ئاخىرقى نەتىجىنىڭ خاتالىق نىسبىتى سەكسەندىن چۈشمەيۋاتىدۇ.
شۇنداق بولغاندا نەتىجىنىڭ ياخشى بولىشىغا تەسىر كۆرسىتىدىغان ئامىل ئۇچۇرنىڭ كۆپ بولىشىلا ئەمەسكەن دەپ قارىدىم، لېكىن قايسى ئامىلنڭ مۇشۇنداق نەتىجىنى كەلتۈرۈپ چىقرىۋاتقانلىقىنى بىلەلمىدىم. ھەم بۇ مىنىڭ سۇئالىم

ئ‍ىككىنجى. ئورگاننىڭ traineddata سىدا بىردانە. uig.training_text ھۆججىتى باركەن، بۇنىڭ ئىشلىتىلىش ئورنىغا قارىسام شۇ text2image گىلا ئىلەتكەن ئىكەن، دىمەك بۇرۇن مۇشۇ ھۆججەتتىن رەسىم ھاسىللاپ ئۆزى مەشىقلىنىدىكەنتۇق، ھازىر مەن ئۆزەم مۇشۇ جەرياننى قىلغان چىراي، يەنى tesseract 5
پەقەت بىزنىڭ lstmf كىلا كۆڭۈل بولىدۇ، مۇشۇ بولسىلا مەشىقلىنىش بالشىىنىۋېرىدۇ، ئۇنىڭ قانداق كەلگەنلكىنى بەرىرى، بۇ چۈشىنىشىم توغىرىمۇ؟

ئۈچىنجى wordlist لوغەت ھۆججىتى تەمىنلىگەن ۋە تەمىنلىمىگەننىڭ ھازىرقى مېنىڭ مەشىقلەندۈرۈش نەتجەمگە تازا بەك تەسىرى بولمايۋاتىدۇ. بۇنىڭ سەۋەبى نىمە بولىشى مومكىن ؟

image

مەن ھاسىل قىلىۋالغان مەشىقلەندۈرشكە ئىشلەتكەن رەسىم مۇشۇنداق ئىدى.

مەن بۇ مەشىقلەندۈرۈش ماتىرىياللىرىنى. https://github.com/Belval/TextRecognitionDataGenerator
ماۋۇ تۈرنى ئىشلىتىپ ھاسىل قىغان ئىدىم.

مەن نۆلدىن باشلاپ ئۆزەم قايتا مەشىقلەندۈرۈپ كۈرۈپ باقتىم، بەش نەشىرىدىن باشلاپ tesstrain تۈرىنى تەمىنلىگەن ئىكەن، مەشىقلەندۈرۈش قەدەم باسقۇچلىرى ئاسانلىشىپتۇ. لېكىن ھازىر بىر ئىككى مەسىلە سەل توختىتىپ قويدى، سىزدىن سۇراپ باقاي دەپ ئۇچۇر يېزىشىم : بىرىنجى، ئەگەر تېكىست ۋە رەسىمنى ئۆزىمىز باشقا قۇراللارنى ئىشلىتىپ ھاسىللىساق، text2image قۇرالىنى ئىشلەتمەيلا ھاسىللانغان رەسىم. بۇ ئەھۋالدا tessetrain دا مەن ھېچ بىر خەت نۇسخىسى كۆرسىتىپ بىرىدىغان يەر باردەك كۆرمىدىم، مەشىقلەندۈرگەندە خەت نۇخسىسى بىھاجەتمۇ؟ okfonts دىگەن ھۆججەت شۇمىكىن دىدىم لېكىن كودىنى كۆرسەم ھېچيەردە ئىشلەتمەپتۇ، شۇنداقلا يەنە ئۆزىمىزنىڭ خەت تىمىملىكىنى كۆرسىتىپ بىرىدىغان يېرىمۇ يوقكەن. tesstrain تۈرى پەقەتلا رەسىم ۋە تېكىست تەلەپ قىلىدىكەن . شۇنداق بولغاندا ماشىنىلىق ئۆگۈنۈشكە ئوخشاش رەسىم ۋە تېكىسنىڭ ماشلىق مۇناسىۋەت ئالاھىدىلىكىدىن پايدىلىنىپ مودۇل ھاللىغۇدەك دەپ ئويلىدىم. لېكىن مەن ھاسىللىغان رەسىم تېكىسلەرنىڭ سانىنىڭ ئاز كۆپلىكى ئاخىرقى نەتىجىگە تەسىر كۆرسىتەلمايۋاتىدۇ.

image

مەن يۈز،مىڭ، ئونمىڭ پارچە رەسىمنى مەشىقلەندۈرۈش ئوبىكتى قىلىپ سىناپ باقتىم. ئۇچۇرنى قانچە كۆپەيتسەممۇ ئاخىرقى نەتىجىنىڭ خاتالىق نىسبىتى سەكسەندىن چۈشمەيۋاتىدۇ. شۇنداق بولغاندا نەتىجىنىڭ ياخشى بولىشىغا تەسىر كۆرسىتىدىغان ئامىل ئۇچۇرنىڭ كۆپ بولىشىلا ئەمەسكەن دەپ قارىدىم، لېكىن قايسى ئامىلنڭ مۇشۇنداق نەتىجىنى كەلتۈرۈپ چىقرىۋاتقانلىقىنى بىلەلمىدىم. ھەم بۇ مىنىڭ سۇئالىم

ئ‍ىككىنجى. ئورگاننىڭ traineddata سىدا بىردانە. uig.training_text ھۆججىتى باركەن، بۇنىڭ ئىشلىتىلىش ئورنىغا قارىسام شۇ text2image گىلا ئىلەتكەن ئىكەن، دىمەك بۇرۇن مۇشۇ ھۆججەتتىن رەسىم ھاسىللاپ ئۆزى مەشىقلىنىدىكەنتۇق، ھازىر مەن ئۆزەم مۇشۇ جەرياننى قىلغان چىراي، يەنى tesseract 5 پەقەت بىزنىڭ lstmf كىلا كۆڭۈل بولىدۇ، مۇشۇ بولسىلا مەشىقلىنىش بالشىىنىۋېرىدۇ، ئۇنىڭ قانداق كەلگەنلكىنى بەرىرى، بۇ چۈشىنىشىم توغىرىمۇ؟

ئۈچىنجى wordlist لوغەت ھۆججىتى تەمىنلىگەن ۋە تەمىنلىمىگەننىڭ ھازىرقى مېنىڭ مەشىقلەندۈرۈش نەتجەمگە تازا بەك تەسىرى بولمايۋاتىدۇ. بۇنىڭ سەۋەبى نىمە بولىشى مومكىن ؟

  1. Siz fontlarni ishlitip text2image arqiliq ogitish(meshiqlendurush)ke ishlitidighan hojjetlerni hasil qildingiz shundaqmu?
  2. Awu yerdiki Modelning qurulmisini siz ulge misallardin ekeldingizmu? yaki ozingiz yasidingizmu? Organ terep teminligen model hojjetning qurulmisi(siz teminligen resimdiki net_spec degen qur) bilen oxshamdu?
  3. siz qanchilik waqit ogettingiz? axirqi loss qanche boldi?
image

مەن ھاسىل قىلىۋالغان مەشىقلەندۈرشكە ئىشلەتكەن رەسىم مۇشۇنداق ئىدى.

مەن بۇ مەشىقلەندۈرۈش ماتىرىياللىرىنى. https://github.com/Belval/TextRecognitionDataGenerator ماۋۇ تۈرنى ئىشلىتىپ ھاسىل قىغان ئىدىم.

Bu yaxshi qoral iken.
Bu qoral arqiliq scan qilinghan resimlerdin ogitishke ishlitidighan Dataset(Soal-Jawab) hasillighili bolamdiken? yaki bumu text2image ning bir turimiken?

بىرىنجى، ئەگەر تېكىست ۋە رەسىمنى ئۆزىمىز باشقا قۇراللارنى ئىشلىتىپ ھاسىللىساق، text2image قۇرالىنى ئىشلەتمەيلا ھاسىللانغان رەسىم. بۇ ئەھۋالدا tessetrain دا مەن ھېچ بىر خەت نۇسخىسى كۆرسىتىپ بىرىدىغان يەر باردەك كۆرمىدىم، مەشىقلەندۈرگەندە خەت نۇخسىسى بىھاجەتمۇ؟

Shundaq, font peqet ogitishke kereklik Dataset hasil qilishtila ishlitilidu.

okfonts دىگەن ھۆججەت شۇمىكىن دىدىم لېكىن كودىنى كۆرسەم ھېچيەردە ئىشلەتمەپتۇ، شۇنداقلا يەنە ئۆزىمىزنىڭ خەت تىمىملىكىنى كۆرسىتىپ بىرىدىغان يېرىمۇ يوقكەن.

Mening chushinishimche: okfonts peqetla, Uyghurchini ogitishte(meshiq qildurushta) isletken fontlarning uchurini korsitip berish uchunla yezip qoyghan dep oylaymen.

مەن يۈز،مىڭ، ئونمىڭ پارچە رەسىمنى مەشىقلەندۈرۈش ئوبىكتى قىلىپ سىناپ باقتىم. ئۇچۇرنى قانچە كۆپەيتسەممۇ ئاخىرقى نەتىجىنىڭ خاتالىق نىسبىتى سەكسەندىن چۈشمەيۋاتىدۇ.
شۇنداق بولغاندا نەتىجىنىڭ ياخشى بولىشىغا تەسىر كۆرسىتىدىغان ئامىل ئۇچۇرنىڭ كۆپ بولىشىلا ئەمەسكەن دەپ قارىدىم، لېكىن قايسى ئامىلنڭ مۇشۇنداق نەتىجىنى كەلتۈرۈپ چىقرىۋاتقانلىقىنى بىلەلمىدىم.

Buningha tesir korsitidighan amillar bek kop, yeterlik ambar bar ehwal astida, modelning qurulmisi, we meshiq qildurush waqti muhim rol oynaydu. men UKIJ fontlirini ishlitip yasighan modelni ogitish uchun bir heptidin kopraq waqit mangdurghan idimghu deymen(taza esimde qalmaptu). Yene bir men 0 din bashlap emes, organ teminligen model asasida qayta ogettim. bundaq bolghanda yene modelni meshiqlendurush asan we toghriliq derijisi yuqiri bolidu.

ئ‍ىككىنجى. ئورگاننىڭ traineddata سىدا بىردانە. uig.training_text ھۆججىتى باركەن، بۇنىڭ ئىشلىتىلىش ئورنىغا قارىسام شۇ text2image گىلا ئىلەتكەن ئىكەن، دىمەك بۇرۇن مۇشۇ ھۆججەتتىن رەسىم ھاسىللاپ ئۆزى مەشىقلىنىدىكەنتۇق، ھازىر مەن ئۆزەم مۇشۇ جەرياننى قىلغان چىراي، يەنى tesseract 5 پەقەت بىزنىڭ lstmf كىلا كۆڭۈل بولىدۇ، مۇشۇ بولسىلا مەشىقلىنىش بالشىىنىۋېرىدۇ، ئۇنىڭ قانداق كەلگەنلكىنى بەرىرى، بۇ چۈشىنىشىم توغىرىمۇ؟

toghra, meshiq qildurush uchun lstmf hojjiti yeterlik.

ئۈچىنجى wordlist لوغەت ھۆججىتى تەمىنلىگەن ۋە تەمىنلىمىگەننىڭ ھازىرقى مېنىڭ مەشىقلەندۈرۈش نەتجەمگە تازا بەك تەسىرى بولمايۋاتىدۇ. بۇنىڭ سەۋەبى نىمە بولىشى مومكىن ؟

Buni menmu taza chushinip ketelmidim. mushu hojjetni ishlitidighan birer tallash(option) bar bolushi mumkin.
menmu izdinip baqay.

image

مەن ھاسىل قىلىۋالغان مەشىقلەندۈرشكە ئىشلەتكەن رەسىم مۇشۇنداق ئىدى.

مەن بۇ مەشىقلەندۈرۈش ماتىرىياللىرىنى. https://github.com/Belval/TextRecognitionDataGenerator ماۋۇ تۈرنى ئىشلىتىپ ھاسىل قىغان ئىدىم.

bu fonttin "single line image" hasil qilidiken.
Esli
image

materyaldin yasighili bolsa, OCR teximu obdan tonuydighan bolatti.

ماۋۇ مۇنازىرى خاتىرىسىدىن ئىۋۇ سىز قىستۇرغان رەسىمنى چىقىرىۋەتكەن بولساق، ياكى ماۋۇسىنى يۇيۇپ يېڭى مۇنازىرە شەكلىدە كېيىنكى سۆھبەتلەرنى داۋام قىلساق.

chushenmidim

تارىختىن سۆز دىگەن كىتاب رەسىمىنى يۇيىۋەتسەك، ياكى مەزكۇن issue نى يۇيىۋەتسەك دىمەكچى

buningdin Dataset yasighili bolmaydu demekchimu siz?

chushendim. undaqta taqiweting