Turkish dataset collection
alisafaya opened this issue · comments
Turkce datasetlerinin toplanmasi
Turkce datasetlerinin toplanmasi, arastirmacilar icin bir yerde erisime acilmasi. Bu projede datasetlere unique bir ID atanacak, bu ID'nin icinde degisik bilgiler kodlanabilecek.
Google sheets: Veri kaynaklari
Kunye tasarisi taslak dokumani burada
Etiketsiz datasetler (Text corpus)
Bu tur etiketsiz datasetlerin siniflandirilmasi daha kolay onun icin once, onlarla baslanabilir. Bu tur datalari toplarken birkac bilginin verilmesi gerekiyor:
- Size bilgileri, kac (MBs, Words, tweets etc..)
- Tarihli ise tarih bilgisi.
- Genre bilgisi: (Generic, Web Crawl, News, Resmi yazi, Kitap etc..)
- Format bilgisi: (txt, jsonl, xml ...)
- Compression bilgisi: tar.gz kullanabiliriz
- Kaynakca (varsa)
- Contributer bilgisi.
baska bilgiler varsa onlar da eklenebilir.
Aday datasetler:
- Sketch Engine Corpus
- TimeLine derlemi (Taner Sezer)
- TScorpus set
- Milliyet (Kemal Oflazer)
- Recent Turkish Wikipedia dump extraction icin bkz
Etiketli datasetler
Bu tur datasetlerin daha farkli istatistikleri bulunabilir.
- Raw text corpora identify edilip S3'e yuklenmesi, bkz: datasets/S3FileSystem
- Datalari goruntulemek icin gerekli arayuzun hazirlanmasi