- 기존에 처리되지 않은 자연어 문서에서 새로운 주제를 추출합니다.
- 수집된 문서를 활용하기 위한 방법 중 하나는, 그들을 통합할 수 있는 카테고리를 만드는 것입니다. 적절한 카테고리를 만들경우, 수집된 데이터를 효과적으로 사용할 수 있습니다.
- 수집된 문서의 특징에 맞는 전처리를 수행합니다.
- 수집된 문서의 특징을 반영하여 새로운 카테고리를 만듭니다.
- 만들어진 카테고리의 정합성을 확인합니다.
- 수집된 문서를 활용하여 사전 학습된 모델에 파인 튜닝을 합니다.
- google api 를 활용한 문서 수집
- 수집된 문서 전처리
- 불용어, 일반 단어 제거
- 단어 추출 및 임베딩 / 문장 토크나이징 시도
- 비지도 군집화 방법 3가지 이상 시도
- 거리/밀도 기반 군집화 : kmeans, dbscan 활용
- 준지도 학습 : 대표성 있는 데이터 수동 라벨링 후 전체 데이터 분류
- kobart 등의 언어 모델 활용
- 최종 결과 확인
- 전처리/ 군집화 옵션에 따라 6개 경우의 수 생성
- 각 옵션에 따른 결과물의 발생 이유 / 한계점 파악
- 추후 작성 예정
- 매일 오전 30분씩 2주간 진행
- 23/07/07 : 테크 스펙 작성
- 문서 수집 : 완료
- 예상 30분
- 실제
- 23/07/08 1.5시간
- 23/07/09 1시간
- 문서 전처리
- 예상 (0.5 x 2) 1시간
- 실제
- 23/07/12 0.5시간
- 모델링 시도 : 7일
- 예상 (0.5 x 7) 3.5시간
- 실제
- 23/07/13 1.5시간
- 결과물 및 한계점 정리 : 2일