thingineeer / switch-negative-word

Interactive diary about depression disorder classification with Deep learning

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Switch negative word

부적절한 단어를 댓글 속에서 감지하고 상응하는 이모지로 변경합니다.


🤟🏻MEMBER🤟🏻

이사빈 정찬영 이명진 이성진
Git Badge Git Badge Git Badge Git Badge

😌CONTENT😌

우리는 바람직한 인터넷 문화를 만들고자 합니다.

요즘 거대한 커뮤니티가 여기저기 있고 각자 대화를 나누지만, 댓글들을 보면 모두 클린하다고 볼 수는 없습니다.

그래서 우리는 댓글 속 비적절한 단어를 적절하게 바꿀 필요가 있다고 생각했습니다. 단순히 부정적인 댓글을 지우거나 ** 처리하는 것이 아니라 해당 단어를 상응하는 이모지로 변경함으로써 사용자에게 사소한 재미를 제공하고자 합니다.


🚃Initial model🚃

Classification KcElectra KoBERT RoBERTa-base RoBERTa-large
Validation Accuracy 0.88680 0.85721 0.83421 0.86994
Validation Loss 1.00431 1.23237 1.30012 1.16179
Training Loss 0.09908 0.03761 0.0039 0.06255
Epoch 10 40 20 20
Batch-size 8 32 16 32
learning rate 2e-06 5e-5 2e-06 5e-6
pretrained-model beomi/KcELECTRA-base skt/kobert-base-v1 xlm-roberta-base klue/roberta-large

💿DATASET💿

🛠Used API🛠

  • naver papago
  • google translator

👨🏻‍💻What we've done👨🏻‍💻

  • 모델 선정 -> Fine tuning
  • pseudo labeling
  • masking the cursing words to predict which word is bad
  • binary classification for each comments
  • multi classification for each comments
  • calculation speed inhanced -> put batchs, split the sentences /.....
  • similarity(early deprecated😂)
  • pos tagging(also early deprecated...😂)
  • scaling
  • substitute cursing word with emoji
  • add more data with pseudo labeling
  • launch server with django

TODO

  • increasing the model accuracy with hyperparameter tuning(Wandb)
  • add more data with pseudo labeling
  • deploy server
  • expand to another task using mask
  • add neologism to vocab -> which could increase 7~8% accuracy
  • use light model / SOTA
  • Teacher student learning
  • transfer learning not the parameter but the experience

🙋🏻HOW TO 🙋🏻

default.mov

🔥REFERENCE🔥

About

Interactive diary about depression disorder classification with Deep learning

License:Apache License 2.0


Languages

Language:Jupyter Notebook 88.3%Language:Python 9.6%Language:HTML 2.1%