Turkish dataset collection

Question

Turkish dataset collection

alisafaya opened this issue 3 years ago · comments

Turkce datasetlerinin toplanmasi

Turkce datasetlerinin toplanmasi, arastirmacilar icin bir yerde erisime acilmasi. Bu projede datasetlere unique bir ID atanacak, bu ID'nin icinde degisik bilgiler kodlanabilecek.

Google sheets: Veri kaynaklari

Kunye tasarisi taslak dokumani burada

Etiketsiz datasetler (Text corpus)

Bu tur etiketsiz datasetlerin siniflandirilmasi daha kolay onun icin once, onlarla baslanabilir. Bu tur datalari toplarken birkac bilginin verilmesi gerekiyor:

Size bilgileri, kac (MBs, Words, tweets etc..)
Tarihli ise tarih bilgisi.
Genre bilgisi: (Generic, Web Crawl, News, Resmi yazi, Kitap etc..)
Format bilgisi: (txt, jsonl, xml ...)
Compression bilgisi: tar.gz kullanabiliriz
Kaynakca (varsa)
Contributer bilgisi.

baska bilgiler varsa onlar da eklenebilir.

Aday datasetler:

Sketch Engine Corpus
TimeLine derlemi (Taner Sezer)
TScorpus set
Milliyet (Kemal Oflazer)
Recent Turkish Wikipedia dump extraction icin bkz

Etiketli datasetler

Bu tur datasetlerin daha farkli istatistikleri bulunabilir.

Raw text corpora identify edilip S3'e yuklenmesi, bkz: datasets/S3FileSystem
Datalari goruntulemek icin gerekli arayuzun hazirlanmasi