tdd-ai / tdd-projects

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Tokenization

alisafaya opened this issue · comments

Tokenization

Ölçünlü Dil (Editörel Süreçten Geçmiş Metinler)

Gazete ve dergi gibi süreli yayınlar ile kitap, rapor vb. Yazılı metinlerin birimlendirilmesi.

  • Veri seti (1): Gazete, kitap ve raporlar için (ts).
  • Veri Seti (2): Kısaltmalar listesi

Hedef: Girdi olarak verilen metnin kısaltmalar, tarih ve saat bilgisi, noktalama işaretlerini kapsayacak şekilde her satıra bir sözcük gelecek şekilde (wpl) birimlendirilmesi.

Sosyal Medya

Twitter başta olmak üzere sosyal medya dilinin birimlendirilmesi.

  • Veri Seti (1): Tweetler (ts).
  • Veri Seti (2): OVV (Out ou vocabulary) sözcük listesi (ts)

Hedef: Sosyal medya dilinin, Emojiler, smileyler, hashtag, mention, URL adresi ve argo sözcükleri de kapsayacak biçimde her satıra bir sözcük gelecek biçimde (wpl) birimlendirilmesi.

Multi-Word

Bir metnin, içinde yer alan ek eylemle oluşturulmuş yapıları kapsayacak şekilde birimlendirilmesi

  • Veri Seti (1): Ek eylemle kurulan yapılar listesi. (çekmek ve etmek ile kuralan yapılar için (ts)).
  • Veri Seti (2): Ek eylemle kurulan yapıların extract edileceği ham metinler (dy, ts).

Hedef: Bir metin içinde geçen ek eylemle kurulmuş yapıların çıktıda aynı satırda, diğer sözcüklerin ayrı satırda olacağı biçimde girdi verinin birimlendirilmesi

  • Generic Tokenizer
  • Domain'e ozel tokenizers (yayinlar, social-media, multi-word)
  • Pipeline icin servis haline getirilmesi