jiangplus / spider

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

拉勾网 Python 爬虫,使用 Scrapy 开发,运行:

scrapy runspider spider/spiders/lagou.py -o data.json

补充了使用浏览器进行抓取的ruby版本,在 lagou.rb 文件 数据文件在 data/result.json 文件,字段分别是:

  • position_name : 职位名称
  • company_full_name : 公司名称
  • salary : 薪酬水平
  • create_time : 发布日期
  • position_advantage : 职位诱惑
  • position_id : 职位id
  • company_id : 公司id
  • company_info : 公司简介
  • address : 工作地址

About


Languages

Language:Python 79.2%Language:Ruby 20.8%