FifthSaint / NewsTextMining201903

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

한글 토픽 모델링에 대한 실험기 페이지입니다.

현재 대상 텍스트는 1990년~2018년 6개 일간지(<한겨레>, <경향>, <국민>, <세계>, <서울>, <한국>)의 '동성애'라는 단어가 들어간 기사 총 1만2873개. 데이터는 '한국언론진흥재단'의 '빅카인즈' 지원을 받았습니다. 데이터 파일은 포함되어 있지 않습니다. 하지만 빅카인즈에서 무료 가입 뒤 위 조건으로 검색해 다운 받으시면 같은 결과를 재현할 수 있습니다.

결과 기사

토픽 모델링 실험기 첫번째 칼럼

두번째 변덕꾸러기 토픽모델링 어떻게 다뤄야 하나

'실험기'라는 단어에서 드러나듯 자신 없는 코드입니다만, 관련한 국내 웹 문서가 별로 없는지라 혹시 조금이나마 보탬이 될까 하여 공유합니다.^^

문서별 토픽 비중 분포를 연도별 비중으로 변환, 모델 시각화 등은 머신러닝플러스 에서 많은 도움과 영감을 받았습니다. Many Thanks!

About


Languages

Language:HTML 99.9%Language:Python 0.1%