denopas / TTC-3600

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

TTC-3600 Veriseti

  • Türkçe Doğal Dil İşleme ve Makine Öğrenmesi Metin Sınıflandırma konularında kullanılabilecek veri seti.
  • Toplam 6 kategoride (ekonomi, kültür-sanat, sağlık, siyaset, spor, teknoloji) 600 doküman içermektedir.
  • Mayıs-Temmuz 2015 tarihlerinde "Hurriyet, Posta, Iha, HaberTurk, Radikal ve Zaman" haber sitelerinin RSS feedlerinden alınmış ve parse edilmiştir.
  • Her kategori ayrı birer klasör olarak yer almaktadır.
  • Veriseti "uci machine learning repository" de akredite edilmiş olup, o versiyonunda sadece Weka uyumlu .arff dosyaları bulunmaktadır.

About