kookeej / Dacon_News_Topic_Classification

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Dacon_News_Topic_Classification

1.주제

한국어 📰뉴스 헤드라인을 이용하여, 뉴스의 주제를 분류하는 알고리즘 개발

2. 배경

텍스트 주제를 추론하는 것은 언어 이해 시스템이 보유해야 하는 핵심 기능입니다. YNAT(주제 분류를 위한 연합뉴스 헤드라인) 데이터 세트를 활용해 주제 분류 알고리즘을 개발해 주세요. 국내 최초 오픈 데이터 세트인 KLUE(Korean Language Understanding Evaluation) 데이터 세트를 이용하여 다양한 언어 모델의 성능을 비교해 한국어 자연어처리 분야의 발전에 기여할 것으로 예상합니다.

3. 주최 / 주관

주최 : DACON 주관 : DACON


결과: KoBERT, KoERECTRA, KcELECTRA 모델을 써서 성능 비교한 결과, KoBERT 모델의 성능이 가장 좋아 KoBERT모델을 사용해 PUBLIC 21/256 PRIVATE 11/256의 성적을 거둠.(상위 5%)

사용 코드: News_Topic_Classification_KoBERT.ipynb

About


Languages

Language:Jupyter Notebook 100.0%