jjanmo / transfer-market

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Crawling & Data Analysis

해당 강의 를 통해서 크롤링과 데이터 분석에 대한 맛보기 실습 🥳

BeautifulSoup, Pandas에 대한 사용법을 알아보자 🚀

알아둬야 할 것들

Web Scraping vs Web Crawling

  • 웹 스크래핑 : 웹 사이트 상에서 원하는 부분에 위치한 데이터를 추출하여 수집하는 기술

  • 웹 크롤링 : 자동화 봇인 웹 크롤러가 정해진 규칙에 따라서 복수의 웹 페이지를 브라우징 하는 행위

일반적으로 말하는 웹 크롤링은 웹 스크래핑과 동일한 의미로 쓰인다.

로봇 배제 표준(Robots exclusion protocol)

웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약 (권고안)으로 일반적으로 접근 제한에 대한 설명은 각 사이트마다 robots.txt에 기술되어 있다. https:// [사이트명] /robots.txt 로 접근하면 해당 문서를 볼 수 있다.

웹 동작 방식

web

크롤링에 필요한 라이브러리들

Requests & BeautifulSoup

Pandas의 기본적인 사용법

pandas1

pandas2

About


Languages

Language:Python 91.6%Language:HTML 6.5%Language:CSS 1.9%