AsoSoft / AsoSoft-Speech-Testset

Datasets of 1.25 hours of transcribed speech for evaluation of Central Kurdish speech recognition (ASR) systems

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

AsoSoft Speech Test-set

The AsoSoft speech test set is designed to evaluate automatic speech recognition (ASR) systems of the Central Kurdish. A speech recognition system must have a good performance in different domains, especially for sentences other than the training ones. Therefore, we have designed a sentence collection for the evaluations of ASR systems. To build the test sentences, 100 sentences from a set of documents in 11 different domains, i.e., religious, sport, politics, economics, science and technology, social, novels, poet, formal letters, conversation, and general are extracted. These sentences are extracted from different online sources and then they are refined.

In the office environment, 8 speakers have uttered all the following 100 sentences, resulting in 1.25 hours of speech.

Files

In the dataset, for each recording three files are given:

  • .wav: wave file recorded in 16 kHz, 16bit, mono
  • .wrd: transcription in Kurdish alphabet
  • .phn: phonetic transcription in ASCII format

Cite

If you are using this corpus, please cite the following reference:

@article{veisi2021Jira,
  title={Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon},
  author={Veisi, Hadi and Hosseini, Hawre and MohammadAmini, Mohammad and  Fathy, Wirya and Mahmudi, Aso},
  journal={arXiv preprint arXiv:2102.07412},
  year={2021}
}

Sentences

Distribution of the designed test set sentences over different domains:

  • General: 10 sentences
  • Religious: 10 sentences
  • Sport: 10 sentences
  • Politics: 10 sentences
  • Economics: 10 sentences
  • Social: 10 sentences
  • Novel: 10 sentences
  • Letter: 10 sentences
  • Conversation: 10 sentences
  • Scientific/Technology: 5 sentences
  • Poet: 5 sentences
  • Total: 100 sentences

The test sentences are given bellow:

  1. پاش موسڵمان بوونی بڕیاری دا بەرگی باڵاپۆشیش لە بەر بکات
  2. ئافرەتانی کورد بۆ لە فرەژنی دەترسن
  3. داوای بەخشش و یارمەتی لە خودا بکەن
  4. خوای گەورە بانگت دەکات بۆ پەیوەست بوونت بە فەرمانەکانی
  5. پێغەمبەری سەروەر ناوی چاکی لا پەسند بوو
  6. هاوەڵ بۆ خودا پەیداکردن ستەمێکی گەورەیە
  7. مەسەلەی عەقیدە ڕاستەوخۆ پەیوەستە بە قورئان و سوننەتەوە
  8. زانا و گەورە ڕووناکبیری ئیسلامی کۆچی دوایی کرد
  9. بە پشتیوانیی خوا هەڵدەستین بە سازدانی کۆڕێکی ئیمانی
  10. هەموو ئەمانە ئەسڵ و بنەمایەکیان نییە لە شەرعدا
  11. یانەی هەولێر سورپرایزی بۆ هاندەرانی هەیە
  12. ڕۆناڵدۆ بەڵێنی دابوو ئەگەر گۆڵ بکات بە هاندەران بڵێت بێدەنگ بن
  13. ناوی یانە بەشدارەکانی جامی جیهانیی یانەکان ئاشکرا کران
  14. یاریزانێکی هەڵبژاردەی عێراق ماڵئاوایی لە ژیان کرد
  15. ئەوە گەورەترین مووچەیە کە لە مێژوودا یاریزانێک وەری گرتبێت
  16. یانەی ڕیال بە سەرکەوتن لە پلەی یەکەمی خولەکەدا وەستا
  17. درگای گواستنەوەی ئەو یاریزانە بە ڕووی هەموو یانەکاندا داخرا
  18. لیستی ڕەشی ڕاهێنەرەکەی دایە بەرپرسانی یانەی شەیتانە سوورەکە
  19. پەنجا کەس لە جەمسەری باشوور ماراسۆن دەکەن
  20. پێکانی یاریزانەکان ئاستی یانەکەیان دابەزاندووە
  21. ئەوانەی ئاڵای کوردستان دەسووتێنن باجەکەی دەدەن
  22. تورکیە ناوچەی ئارامی سووریە فراوانتر دەکات
  23. لیبراڵەکان لە هەڵبژاردندا نیوەی کورسییەکانیان بە دەست هێنان
  24. سێ سەربازی تورکیە لە هێرشێکدا کوژران
  25. سەرۆک کۆماری وڵاتی ئەمریکا کەسێکی گرینگە
  26. نابێت بەغدا تاکلایەنە بڕیار بە سەر کوردستاندا بدات
  27. بەربژێرێکی سەربەخۆ بووە سەرۆکی نەمسا
  28. ئۆپەراسیۆنی هێزە ئەفغانییەکان دژ بە داعش بەردەوامە
  29. سەرۆکوەزیرانی ئیتالیا دەستی لە کار کێشایەوە
  30. ئەو گشتپرسییە دوێنێ لە هەرێم سەبارەت بە هەموارکردنەوەی دەستوور ئەنجام درا
  31. نرخی نەوت دابەزینی بە خۆیەوە بینی
  32. پەرلەمانتارێک لەبارەی بودجەی ئەمساڵەوە لێدوانی دا
  33. یاسای بودجەی عێراق لە بەرژەوەندیی هاووڵاتییانی هەرێمی کوردستانە
  34. کۆمپانیای دەرهێنانی نەوت گەشبینە بە کارکردنی لە هەرێمی کوردستان
  35. حکوومەتی ئێران بە فەرمی ناوی دراوی وڵات دەکات بە تمەن
  36. کارگەیەکی دۆشاوی تەماتە لە کۆیە لە کار کەوتووە
  37. دوای ساڵێک بەهای تەڵا بۆ یەکەم جار گەیشتە ئەم ئاستە
  38. ئەنجومەنی وەزیران دەستپێکی ساڵی دارایی نوێیان ڕاگەیاند
  39. بڕێکی زۆری داهات بۆ بەشی ئاسایش تەرخان کراوە
  40. حکوومەتی عێراق بە پشتبەستن بە زانستی ئابووری تەواوی مووچەی فەرمانبەرانی داوە
  41. هەندێک گیا یان خواردن مادەی هەستیار بە تیشکی خۆر دروست دەکەن
  42. گۆڕینی شەپۆلی دەنگ بە شێوەیەکی گشتی بۆ هێمایەکی دەماری زۆر کەمە
  43. بۆمان دەردەکەوێت کە کاریگەرییە هەستییەکانی بیستنی مووزیکێک چۆن کار دەکات
  44. ئەگەر بە خێرایی تیشک گەردیلەکان لە یەک بدەین ورد دەبن
  45. هەندێک بەرئەنجام لە بەریەککەوتنی پڕۆتۆنەکان لە وزەی ئەوپەڕی بەرز دروست دەبێت
  46. لە پارکێکی بەرازیل هونەر تێکەڵی سروشت کراوە
  47. کاتێک دەگەیتە ناوەڕاستی سەوزاییەکە گەلەرییەکی گەورەت لە بەردەمدایە
  48. دەرهێنەرێکی کورد نووسینی درامایەکی تەواو کردووە
  49. ماوەی سێ ساڵە بە هۆی نەشتەرگەریی دڵەوە لە ماڵەوە پشوو دەدات
  50. ئەو کلیپە بریتییە لە چیرۆکی خۆشەویستییەکی قووڵ کە بە خیانەت کۆتایی پێ دێت
  51. کورتەفیلمی خاکی شەهید یەکەم نمایشی لە شاری هەولێر دەبێت
  52. گۆرانیبێژێکی جیهانی ژیانی هاوژینی لەگەڵ کوڕە کوردێک پێک دێنێت
  53. شای ئوردن سەرەخۆشیی لە سەرۆک بارزانی کرد
  54. ڕێگەم پێ بدەن لەم بۆنە خەمناکەدا دڵتەنگیی خۆمانتان پێ بگەیەنم
  55. سەرکەوتنی زۆر مەزن لەسەر دەستی پێشمەرگە بە دی هاتووە
  56. مێژووی ئەدەبی کوردی کتێبێکی تایبەتییە
  57. گومانی تێدا نییە لەگەڵ بەرەوپێشچوونی شێعری کوردی ڕەخنەش سەری هەڵداوە
  58. نووسەر دەبێت لەپێناو کۆمەڵگەکەیدا قەڵەمی بخاتە گەڕ
  59. هەر ڕۆمانێک دنیایەکی جیاوازە کە دەتوانیت تیایدا بژیت
  60. نووسینی چیرۆکی کاریگەر کارێکی ئەستەمە کە چیرۆکنووسی کورد بە باشی کردوویەتی
  61. کتوپڕ کۆڵان بوو بە هەڵا و منداڵان ڕایان کرد
  62. لە ژوورەکەی تر زۆرتر گەنجان دانیشتبوون
  63. لەم ماوەیەدا چەند جار بە چاو گلەیی کردبوو
  64. بۆ سەرۆک ئەوە گرینگ بوو لە شارێکدا دەژیا کە کێشەیەکی وەهای تێدا نەبوو
  65. هەر درگاکەت دەکردەوە هاڵاوی بۆنەکەت بە سەردا دەهات
  66. ئینجا ویستی ناولەپی خۆی لەسەر عەرز دابنێت و پشتی بداتە دیوار هەڵبستێتەوە
  67. ئەوەی دەمێنێتەوە تەنیا بەشی ئەوە دەکات لە برسان نەمریت
  68. کەس بە دەرەوە نەبوو، پەنجەرەکانیش چاوی کوێری ماڵەکان بوون
  69. پیاو بە بینینی کەسێکی وا حاڵ و ڕۆژی خراپی خۆی لە بیر دەچێتەوە
  70. دابڕاوی زێدی بندەست و لەتم، تین و تاسە و بانگی مانە گازی من
  71. ئەوشۆ میوانی خەونێکتم لەو خەونانەی بەرەبەیان لە بیرت دەچنەوە
  72. لە گیانیاندا دەگوڕێنم بژی هەر کورد و کوردستان، بە گوللەی دوژمنانی گەل دڵیشم بێتە ڕاوەستان
  73. کاکە گیان لاوی کوردی شۆخ و شەنگ، تا کەنگێ دەبی وا بێهەست و دەنگ
  74. قڕمان ئەکەن قوڕتان بە سەر، لێ ناگەڕێین نیشتمانمان بکەن بە ماڵ
  75. لەشفرۆشێک لەسەر شەقامێکی گشتی کراسەکەی هەڵدایەوە و هاواری کرد
  76. پێویستە بە وردی ڕەچاوی ئەم خاڵانەی خوارەوە بکرێت
  77. ڕێنماییە تەندروستییەکان لە حەوت خاڵدا دەستنیشان دەکرێن
  78. داواکارین بڕوانامەی مردن بکەن بۆ ئەم ناوانەی لای خوارەوە
  79. ئاگاداری سەرجەم فەرمانگەکانمان دەکەینەوە کە سبەینێ پشووی فەرمی نییە
  80. بە مەبەستی دروستکردنی کەشێکی زانستی و بە لەبەرچاوگرتنی باری دارایی هەرێم پێویستە لە قەرەباڵغ کردن خۆ بپارێزرێت
  81. ئێمە وەک جێبەجێکاری پڕۆژەکە داوا لە بەڕێزتان دەکەین پشتیوانیمان بکەن بۆ دابینکردنی شوێنێک بۆ ئۆفیس
  82. داواکارین مانگی ڕابردوو وەک وەستانی کار ئەژمار بکەن
  83. داوا دەکەین پێشینەی هەشت لە سەدی پڕۆژەی ناوبراومان بۆ خەرج بکەن بە پێی ڕێنماییەکانی جێبەجێکردنی پڕۆژە حکوومییەکان
  84. ئاگادارتان دەکەین کە کارگەی ناوبراو لەمەودوا کار بۆ ئێمە ناکات
  85. ئێمە وەک سەرۆکایەتیی کۆمپانیا ڕێگەمان داوە بەو بەڕێزە وەک نوێنەری کۆمپانیاکەمان
  86. ئێمە پێشنیاری گۆڕانکاری لە بڕگەی چوارەمی پڕۆژەکەدا دەکەین
  87. داوا لە بەڕێزتان دەکەین ڕەزامەندی بفەرموون بۆ پێدانی هێمای تاسە
  88. هاوپێچ لەگەڵ ئەم نووسراوەدا دەرخستەی چەند گۆڕانکارییەکی پڕۆژەی ناوبراوتان بۆ دەنێرین
  89. داواکارین لە بەڕێزتان بۆ گەڕانەوەی پێنج لە سەدی بارمتەی یاسایی
  90. ئاگادارتان دەکەینەوە ئێمە وەک کۆمپانیای جێبەجێکاری پڕۆژەکە سەرجەم خاڵەکانمان جێبەجێ کردووە
  91. بە بۆنەی ڕۆژی جیهانیی زمانی دایکی وتووێژێکمان لەگەڵ چالاکی فەرهەنگی ئەنجام داوە
  92. بە بڕوای ئێوە هۆکاری توندوتیژی لەگەڵ ژنان بۆ چی دەگەڕێتەوە
  93. ئایا ئێوە تەنیا هەوڵ دەدەن ئەو جیهانەی تێیدا دەژین شی بکەنەوە
  94. بە بۆچوونی ئێوە هۆکاری خۆپیشاندانە توندوتیژەکانی خوێندکاران چییە
  95. ڕێگەم پێ بدەن وتووێژەکە بە پرسیارێکی گشتی دەست پێ بکەم
  96. تکایە باسی سەرەتای ژیانی هونەریت بکە بۆمان
  97. وەک دوایین پرسیار ئەگەر بابەتێک ماوە فەرموون بیخەنە بەر باس
  98. سەرەتا باسی ژیاننامەی خۆت بکە و سەرەتای منداڵیت چۆن تێ پەڕاند
  99. وەک خانمە نووسەر و ڕووناکبیرێکی کورد چۆن لە چالاکیی ئەو ژنانە دەڕوانیت کە دێنە مەیدانی نووسین
  100. پڕۆژەیەکی تایبەتت بۆ کار و چالاکییەکانی دواترت هەیە

About

Datasets of 1.25 hours of transcribed speech for evaluation of Central Kurdish speech recognition (ASR) systems