- Türkçe Doğal Dil İşleme ve Makine Öğrenmesi Metin Sınıflandırma konularında kullanılabilecek veri seti.
- Toplam 6 kategoride (ekonomi, kültür-sanat, sağlık, siyaset, spor, teknoloji) 600 doküman içermektedir.
- Mayıs-Temmuz 2015 tarihlerinde "Hurriyet, Posta, Iha, HaberTurk, Radikal ve Zaman" haber sitelerinin RSS feedlerinden alınmış ve parse edilmiştir.
- Her kategori ayrı birer klasör olarak yer almaktadır.
- Veriseti "uci machine learning repository" de akredite edilmiş olup, o versiyonunda sadece Weka uyumlu .arff dosyaları bulunmaktadır.