hwRG / GDP_comparison_between_regions_industry

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

GDP comparison between regions industry Project

주제 선정의 근거

  1. 어렸을 때부터 돈에 관심이 많았습니다. 자연스레 소득과 생산에 대해 종종 알아보곤 했습니다. 얼마 전에 지역별 1인당 GDP에 대한 포스팅을 보고 충격을 받았습니다. 전체 GDP 뿐만 아니라 1인당 GDP 또한 서울이 압도적으로 높을 것이라 생각한데 비해 울산, 충남 등이 1,2위를 차지하고 서울은 5위로 중하위였습니다.

  2. 전체 GDP와 다르게 변화가 큰 이유는 산업과 인구밀집에 따라 좌우되는 것을 파악했습니다. 그래서 호기심에 이 내용을 그대로 경기도 등 다른 지역에도 적용해 시군 별로 지역총생산량(GRDP)과 각 산업별로 어느정도 가치를 지니고 있는지 분석해보려고 합니다.

간단 프로그램 구동 방식

  • 지역마다 인구 데이터를 저정합니다.
  • 사용자가 input으로 두 지역을 선택하여, 어떤 지역에서의 인구가 타지역으로 인구 이동이 이루어졌을 때 인구가 늘어난 지역의 총생산량의 변화율을 나타냅니다.
  • 가장 변동이 큰 산업의 변화율을 계산합니다.
  • ex) 용인의 인구 10만명이 수원으로 이동했을 때 수원의 총생산량 변화율 @%, 변동이 가장 큰 산업인 제조업의 변화율 @%

프로젝트로 얻는 이점

  1. 지역마다의 고유한 생산 기반이 다르기 때문에 그에 맞는 변화율을 한 눈에 비교할 수 있습니다.
  2. 데이터의 분석 뿐만 아니라 함수형 구성을 통해 프로그래밍 능력이 상승합니다.
  3. 각 지역마다의 산업 중 1인당 GDP값과 전체 GDP값의 차이가 어떻게 다른지 알 수 있습니다.

정부 사이트를 통한 데이터 수집

  1. KOSIS(국가통계포털)에서 '행정구역(시도)별/경제활동별 지역내총생산'의 데이터를 경기도로 한정하여 수집합니다.
  2. MOIS(행정안전부)에서 '주민등록 인구 및 세대현황'의 데이터를 수집합니다.

분석을 위한 데이터의 가공

  1. 행정구역(시도)별/경제활동별 지역내총생산
  2. 각 지역의 GDP 정보는 총 3열로 되어 있으므로 도시, 산업, GDP 순서로 새로 생성한 리스트에 각각 데이터를 정리합니다.
  3. 산업마다 컴마로 되어있는 산업의 경우 리스트가 뒤로 밀려 모든 이름이 출력되지 않기 때문에 해결 방법을 구상합니다.
    → 한 열에 3개의 값이 들어가야 하는데, 위 경우 3개를 초과해 존재하므로 리스트의 개수만큼 가운데 리스트를 합쳐줍니다.
  4. 대구광역시와 충청남도는 다른 파일과 다르게 한 열에 4개의 값이 들어가 있기 때문에 다른 지역과 다르게 데이터를 가공합니다.
    → 딕셔너리로 지역마다 번호를 매기고 대구와 충남의 숫자(5,9)를 지정해 따로 프로그램을 진행합니다.
  5. 주민등록 인구 및 세대현황
  1. 각 지역의 인구 정보는 총 2열로 되어 있으므로 지역, 인구 수 순서로 새로 생성한 리스트에 각각 데이터를 정리합니다.
  2. 도시 이름에 지역 번호가 함께 있으므로 replace로 삭제해 순수한 지역명만 남겨둡니다.(ex.경기도 수원시 (4111000000) → 수원시)

Use Libraries

  • Python 3.X
  • Matplotlib

About


Languages

Language:Python 61.2%Language:Jupyter Notebook 38.8%