bact / spellcheck

Spellchecker experiment

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

spellcheck

Spellchecker experiment

Goal:

  • Application: preprocess text to improve search and classification/clustering performance
  • Good enough for classification (where the whole system does not depend only on the accuracy of spell checker)
  • Good enough for search (where other edit distance and proximity search can be applied to improve usability)
  • Fast enough to process large amount of text (corpus of 1 GB text in couple minutes)

Non-goal (yet):

  • Good enough for linguistic analysis

Some links on spell checking

Basics:

Discussions:

Thai-specific:

More techniques:

For search/query application:

Competition:

N-Grams

Misspelling generator

Segmentation

OCR

Analysis of errors

  • รายการคำในภาษาไทยที่มักเขียนผิด. (2021). In วิกิพีเดีย. https://th.wikipedia.org/w/index.php?title=%E0%B8%A3%E0%B8%B2%E0%B8%A2%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%84%E0%B8%B3%E0%B9%83%E0%B8%99%E0%B8%A0%E0%B8%B2%E0%B8%A9%E0%B8%B2%E0%B9%84%E0%B8%97%E0%B8%A2%E0%B8%97%E0%B8%B5%E0%B9%88%E0%B8%A1%E0%B8%B1%E0%B8%81%E0%B9%80%E0%B8%82%E0%B8%B5%E0%B8%A2%E0%B8%99%E0%B8%9C%E0%B8%B4%E0%B8%94&oldid=9351445
  • พลวัฒน์ ไหลมนู. (2559). การตรวจแก้การสะกดผิดแบบเป็นคำจริงในภาษาไทยโดยใช้แบบจำลองไตรแกรม. วิทยานิพนธ์อักษรศาสตรมหาบัณฑิต สาขาวิชาภาษาศาสตร์ ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยปีการศึกษา 2559. https://www.arts.chula.ac.th/~ling/thesis/2559MA-Ling-Ponlawat.pdf
  • ปณิธาน บรรณาธรร. (2555). นักศึกษาจีนกับข้อผิดพลาดในการเขียนภาษาไทย. รายงานการวิจัย มหาวิทยาลัยราชภัฏสวนสุนันทา. http://www.ssruir.ssru.ac.th/bitstream/ssruir/780/1/187-55.pdf
  • Tapsai, C. (2018). Analysis of Patterns and Causes of Misspelling and Slang Words for Natural Language Processing. Proceedings of 135th The IRES International Conference, Moscow, Russia, 10th-11th August, 2018, 6. http://www.elcim.ssru.ac.th/chalermpol_ta/file.php/1/Russia-Analysis-Misspelling-NLP.pdf
  • รุ่งณภา บุญยิ้ม. (2561). การวิเคราะห์สาเหตุการเขียนสะกดำผิดในภาษาไทย. การประชุมวิชาการระดับนานาชาติและระดับชาติ ราชภัฏวิจัย ครั้งที่ 5 วันที่ 2-5 ธันวาคม 2561 ณ มหาวิทยาลัยราชภัฏเพชรบุรี. https://research.kpru.ac.th/research2/pages/filere/3642019-09-07.pdf
  • วิชชุพงศ์ วรศาสตร์กุล. (2562). การสื่อสารภาษาไทย : คำาที่มักเขียนผิดของนักศึกษามหาวิทยาลัยราชภัฏเลย. วารสารมนุษยศาสตร์และสังคมศาสตร์ มหาวิทยาลัยมหาสารคามปีที่ 38 ฉบับที่ 3 พฤษภาคม - มิถุนายน พ.ศ. 2562. http://research.msu.ac.th/msu_journal/upload/articles/article2500_21624.pdf
  • ธนู ทดแทนคุณ และ ปวีณา จันทร์สุวรรณ. (2558). ข้อบกพร่องในการเขียนภาษาไทย : กรณีศึกษานักศึกษามหาวิทยาลัยเทคโนโลยี ราชมงคลสุวรรณภูมิ ศูนย&นนทบุรี. รายงานการวิจัย. คณะศิลปศาสตร& มหาวิทยาลัยเทคโนโลยีราชมงคลสุวรรณภูมิ ศูนย&นนทบุรี 2558. https://research.rmutsb.ac.th/fullpaper/2558/2558240240296.pdf
  • ชาพิมล, ก. (2017). การเขียนสะกดคำภาษาไทยของนักศึกษาชั้นปีที่ 1 ในระดับอุดมศึกษา: มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตหาดใหญ่ และมหาวิทยาลัยราชภัฏภูเก็ต. Journal of Humanities Naresuan University, 14(1), 47–60.
  • ทานตวณิช, ท. (2015). ข้อผิดพลาดในการเขียนเชิงวิชาการ ของนิสิตสาขาวิชาภาษาไทย มหาวิทยาลัยบูรพา Common Errors in Academic Writing Made by Thai Major Students, Burapha University. Academic Journal of Humanities and Social Sciences Burapha University, 23(43), 1–29.
  • แสงอาวุธ, ศ. (2017). วิเคราะห์ข้อผิดพลาดในการเขียนภาษาไทยของนักศึกษาจีน ที่เรียนสาขาวิชาภาษาไทย ในมณฑลยูนนาน ประเทศจีน. วารสาร มจร สังคมศาสตร์ปริทรรศน์, 6(2), 133–144.
  • ไหลมนู, พ., & อรุณมานะกุล, ว. (2017). การศึกษาวิเคราะห์คำไทยที่มักเขียนผิด. Manutsayasat Wichakan, 24(2), 318–343.
  • อักษรกาญจน์, ส. (2016). การศึกษาลักษณะข้อผิดพลาดในการเขียนภาษาไทยของนักศึกษา ระดับปริญญาตรี คณะครุศาสตร์ มหาวิทยาลัยราชภัฏสุราษฎร์ธานี ปีการศึกษา 2558. ราชภัฏเพชรบูรณ์สาร, 18(2), 65–74. https://so05.tci-thaijo.org/index.php/jpcru/article/view/202373

Uncategorized

About

Spellchecker experiment

License:Apache License 2.0