nanelimon-organization / team-introduction-files-2022

Teknofest2022 Türkçe Doğal Dil İşleme Yarışması Nane&Limon ekibinin ekip bilgileri, çalışmaya dair bilgiler ve sunum dosyalarını içermektedir. LÜTFEN PROJEYİ ANLAMAK İÇİN BU DÖKÜMANDAN BAŞLAYINIZ.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Nane&Limon 🐍 Teknofest 2022 TDDİ Repository

Bu depo Teknofest 2022 Kapsamında Türkçe Doğal Dil İşleme Yarışması katılımcısı Nane&Limon ekibinin dökümanlarını içermektedir.

Problem?

Siber zorbalık, Bir kişiyi veya kişinin içinde bulunduğu belli bir topluluğu hedef alan her türlü aşağılayıcı, küçük düşürücü ve zedeleyici paylaşımların tümüdür. UNESCO’nun siber zorbalığın yüksek gelir düzeyindeki ülkelerde yaygınlığı ile ilgili verilerine göre siber zorbalıktan etkilenen çocukların ve ergenlerin oranı yüzde 5 ile yüzde 21 arasında değişmektedir. Bu arada kızların bu tür zorbalığa maruz kalma olasılığı erkeklere göre daha yüksektir.

  • Yarışmada, Türkçe metinlerden siber zorbalık yapılması ve yapılan zorbalığın alt kategorisinin yüzdelik oranla ne olduğunu tespit eden bir model geliştirilmesi hedeflenmiştir.

Katkılarımız

Proje kapsamında ;

  • 3388 adet 4 kategorili etiketli güncel veri seti üretilmiştir.

  • Aşağıda görüldüğü gibi yüksek başarı oranlarına sahip alt kategorileri bulunan Türkçe Siber Zorbalık modeli kazandırılmıştır.

    Cinsiyetçilik Irkçılık Kızdırma Nötr
    Precision 0.925 0.878 0.824 0.915
    Recall 0.831 0.896 0.843 0.935
    F1 Score 0.875 0.887 0.833 0.925

    Accuracy : 0.886

  • Oluşturulan yeni veri seti için bir çok yöntem denenerek literatüre henüz yeni katılmış olan bu veri seti için ilk hyper parametre araştırmaları yapılmıştır.(TFIDF & ML modelleri ve Transformers(BERT) yöntemler denenmiştir.)

  • Türkçe Doğal Dil İşleme yapılırken diğer araştırmacıların ön işleme adımlarını hızlıca geçebilmeleri için veri temizleme aracı geliştirilip yayınlanmıştır.

  • Türkçe Doğal Dil İşleme yapacak diğer araştırmacıların ihtiyaç duydukları twitter verileri için hiçbir kütüphaneden hazır bir araç kullanılmayarak özgün algoritmalar ile veri çeken bir bot yazılmıştır.

  • Veri etiketleme adımında kendi özgün veri etiketleme aracımızı yazarak bundan sonra yapacağımız çalışmalar için ve diğer bütün veri etiketleme üzerine çalışan araştırmacılar için daha hızlı, kolay ve erişilebilir etiketleyebilmek, çapraz kontrollerini yapabilmek ve istatistiklerine heran ulaşabilmek için kendi veri etiketleme aracımızı yazdık

  • Oluşturulan başarılı model ürünleştirilmiştir.

Oluşturulan servisin uygulama halini buradan deneyebilirsiniz.

  • ÖNEMLİ NOT:
    • Çalışma boyunca hiçbir hazır api, kütüphane, veri seti, araç veya model kullanılmamıştır.
    • Çalışma boyunca hiçbir ücretli uygulama, sunucu veya domain hizmeti kullanılmamıştır.

Yapılan proje adımları aşağıda yer almaktadır.

plot

Veri Kazıma Demo Videosuna buradan ulaşabilirsiniz. Araçların tanımın videosuna buradan ulaşabilirsiniz.

Örnekler

Cinsiyetçilik Örneği: plot Irkçılık Örneği: plot Kızdırma Örneği: plot Nötr Örneği plot

About

Teknofest2022 Türkçe Doğal Dil İşleme Yarışması Nane&Limon ekibinin ekip bilgileri, çalışmaya dair bilgiler ve sunum dosyalarını içermektedir. LÜTFEN PROJEYİ ANLAMAK İÇİN BU DÖKÜMANDAN BAŞLAYINIZ.

License:MIT License