The-G / Crawling_json_web

Practice crawling json web

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Create JSON Crawler

  • crawling.rb

  • Refactoring.rb

  • wc_crawling.rb

  • post_crawler.rb

  • XHR 부분...

이런 것을 긁으려고 한다... json으로 날라온 거!!

XHR을 뒤지네!!

Request
URL:http://webtoon.daum.net/data/pc/webtoon/list_daily_ranking/finished?timeStamp=1510902444663
Request Method:GET
Status Code:200 OK
Remote Address:113.29.187.36:80
Referrer Policy:no-referrer-when-downgrade
이런 부분!!

  • JSON 방식으로 통신하는 이유는, 웹하고, 앱 만들때도 똑같이 보내주면 되니 편하지 html로 data 넣는 것 보다.

  • 이런 crawling을 어디까지 쓸 수 있냐면!!

    • 지도에서 길찾기도 json으로 긁어 올 수 있다!!
    • session 정보가 cookie에 들어있네, 같이 넘기면 가져다 쓸 수 있다!! header 정보 중요하지!!
  • Session

    • request(client) -> logic(server) -> response(server) -> html/json/csv(client)
      • 이런 무상태성을 띄어 넘는 것이 session이다. session은 기본적으로 cookie다. cookie는 없애지 않는 이상 남아 있는다.
    • set-cookie 부분을 Header에서 확인 할 수 있다.
      • refresh 할 때마다 set-cookie가 변하네.. 계속 session을 통해서 tracking 한다!!
    • 그 cookie를 그대로 이용한다!!
  • get방식 안되면 post방식 했을 때 되는 경우도 있다!!

About

Practice crawling json web


Languages

Language:Ruby 100.0%