hskimim / news_text_mining_project

crawling news whose topic about economy and finance and extract significant news link, service

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Personal Project : News Text Mining project

  • 매일매일 분수처럼 쏟아지는 뉴스 기사들을 알고리즘 기반의 추천 시스템으로 5개를 링크를 뽑아줍니다.
  • It recommends five URLs from the massive news articles pouring like a fountain every day with an algorithm-based recommendation system.

Name

  • '김 현식' ('Derrick Kim')

1. Objective

  • 알고리즘 기반으로 금융,경제 토픽의 뉴스 5개를 추천해주는데, 해당 뉴스들은 전체 뉴스의 토픽을 대변하고 있어야 한다.
  • Based on the algorithm, we recommend five news articles on financial and economic topics, which should represent the whole news topic.

2. Dataset Description

3. Algorithm

Sequence

개인 로컬의 환경 상, 코퍼스 추출은 윈도우 환경에서, 크롤링 환경은 리눅스 환경에서 진행하였다. In the personal local environment, the corpus extraction was performed in the window environment, and the crawling environment was performed in the Linux environment.

Newly updated : 최근 업데이트된 내용상, 파일 명은 win10 을 유지했지만, 리눅스 환경 내에서 일관되게 돌아가도록 하였다. 즉, 같은 OS 환경 내에서도 operating 가능하다.

4. Sequence

  • process_1(Linux_env) :

    • Data crawling(under the Selenium)
    • Selenium
  • process_2(Windows10_env)

    • Data Tuning(under the Konlpy)

About

crawling news whose topic about economy and finance and extract significant news link, service


Languages

Language:Jupyter Notebook 97.0%Language:Python 3.0%Language:Shell 0.0%Language:Vim Script 0.0%