jinseriouspark / unsupervised-clustering-and-make-new-topic

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

unsupervised clustering and make new topic

요약

  • 기존에 처리되지 않은 자연어 문서에서 새로운 주제를 추출합니다.

배경

  • 수집된 문서를 활용하기 위한 방법 중 하나는, 그들을 통합할 수 있는 카테고리를 만드는 것입니다. 적절한 카테고리를 만들경우, 수집된 데이터를 효과적으로 사용할 수 있습니다.

목표

  • 수집된 문서의 특징에 맞는 전처리를 수행합니다.
  • 수집된 문서의 특징을 반영하여 새로운 카테고리를 만듭니다.
  • 만들어진 카테고리의 정합성을 확인합니다.

목표가 아닌 것

  • 수집된 문서를 활용하여 사전 학습된 모델에 파인 튜닝을 합니다.

계획

  • google api 를 활용한 문서 수집
  • 수집된 문서 전처리
    • 불용어, 일반 단어 제거
    • 단어 추출 및 임베딩 / 문장 토크나이징 시도
  • 비지도 군집화 방법 3가지 이상 시도
    • 거리/밀도 기반 군집화 : kmeans, dbscan 활용
    • 준지도 학습 : 대표성 있는 데이터 수동 라벨링 후 전체 데이터 분류
      • kobart 등의 언어 모델 활용
  • 최종 결과 확인
    • 전처리/ 군집화 옵션에 따라 6개 경우의 수 생성
    • 각 옵션에 따른 결과물의 발생 이유 / 한계점 파악

이외 고려 사항들

- 추후 작성 예정

마일스톤

- 매일 오전 30분씩 2주간 진행
- 23/07/07 : 테크 스펙 작성
- 문서 수집 : 완료
    - 예상 30분
    - 실제 
        - 23/07/08 1.5시간 
        - 23/07/09 1시간
- 문서 전처리 
    - 예상 (0.5 x 2) 1시간
    - 실제 
        - 23/07/12 0.5시간
- 모델링 시도 : 7일
    - 예상 (0.5 x 7) 3.5시간
    - 실제
        - 23/07/13 1.5시간
- 결과물 및 한계점 정리 : 2일

About

License:MIT License


Languages

Language:Jupyter Notebook 100.0%