tdd-ai / tdd-projects

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Turkish dataset collection

alisafaya opened this issue · comments

Turkce datasetlerinin toplanmasi

Turkce datasetlerinin toplanmasi, arastirmacilar icin bir yerde erisime acilmasi. Bu projede datasetlere unique bir ID atanacak, bu ID'nin icinde degisik bilgiler kodlanabilecek.

Google sheets: Veri kaynaklari

Kunye tasarisi taslak dokumani burada

Etiketsiz datasetler (Text corpus)

Bu tur etiketsiz datasetlerin siniflandirilmasi daha kolay onun icin once, onlarla baslanabilir. Bu tur datalari toplarken birkac bilginin verilmesi gerekiyor:

  • Size bilgileri, kac (MBs, Words, tweets etc..)
  • Tarihli ise tarih bilgisi.
  • Genre bilgisi: (Generic, Web Crawl, News, Resmi yazi, Kitap etc..)
  • Format bilgisi: (txt, jsonl, xml ...)
  • Compression bilgisi: tar.gz kullanabiliriz
  • Kaynakca (varsa)
  • Contributer bilgisi.

baska bilgiler varsa onlar da eklenebilir.

Aday datasetler:

Etiketli datasetler

Bu tur datasetlerin daha farkli istatistikleri bulunabilir.

  • Raw text corpora identify edilip S3'e yuklenmesi, bkz: datasets/S3FileSystem
  • Datalari goruntulemek icin gerekli arayuzun hazirlanmasi