yk-Jeong / nextlab_collabo

코드스테이츠 기업협업 프로젝트: 넥스트랩과 함께 한 자연어처리

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

📰 '넥스트랩'과 함께 한 기업협업 프로젝트

💭 작업환경 google colab

📅 진행기간 21.03.04 ~ 22.03.31 (4주)


프로젝트 개요

📃 디지털 매체를 통해 뉴스가 서비스되는 시대이나, 여전히 많은 수의 신문이 종이출력물 형태를 우선으로 제작되고 있음
이러한 상황에서, AI 기술을 적용하여 종이신문 원문의 PDF로부터 추출한 자연어 데이터를 처리하고자, 다음 세 가지 과제를 중점으로 신문 데이터에 적용할 AI 모델을 제작

1. 기사 내용을 기반으로 카테고리를 분류 

2. 신문기사 원문의 한글 띄어쓰기 검사

3. 신문 출력물에서 나누어진 단락을 재배치하여 하나의 기사문으로 완성
  • 프로젝트의 목표


파일 설명

  • code.ipynb 분석을 위해 작성한 전체 코드(google colab에서 작업)
  • presentation.pdf 프레젠테이션을 위해 제작한 ppt의 pdf 버전

결과 요약


데이터 세트의 특징

  • 출처: 국립국어원 제공 뉴스 기사 말뭉치를 기반으로 전처리를 완료한 신문기사 텍스트
  • 구성: 카테고리별 1만 3천여 건, 총 11만 7천여건의 .txt 파일

문제해결 과정

한계점과 보완 방안

한계

보완방안



Update

  • (2022.08.22 ~ ) 프로젝트 소개문 작성

About

코드스테이츠 기업협업 프로젝트: 넥스트랩과 함께 한 자연어처리


Languages

Language:Jupyter Notebook 100.0%