Jesse6789 / lagou

利用 bs4 爬取拉钩网4000 家企业的招聘信息 ,并录入数据库

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

拉钩网和酷我音乐爬虫

工程目录结构说明

├── app                         # 根目录
│   ├── logos                   # 获取到的企业 LOGO
│   ├── scripts                 # PHP 脚本目录 ,处理数据和统计
│   │   ├── catofcity.php       # 统计数据并根据城市分类
│   │   ├── database.php            # 数据库链接文件
│   │   └── updateData.php          # 处理数据 ,让数据可以更为容易的进行统计
│   └── views                   # 视图目录
│       └── echarts.html            # 利用百度Echarts进行统计
├── composer.json               # composer.json 不解释
├── composer.lock               # composer.lock 不解释
├── kuwo.py                     # 酷我的爬虫脚本
├── lagou.py                    # 拉钩网的爬虫脚本
├── README.md                   # README.md
└── vendor                      # php文件的依赖 ,主要是EloquentORM
    ├── autoload.php            # 自动加载文件
    ....                        # 其他依赖

拉钩网 :

拉钩网作为招聘网站 ,有相当完善的反爬虫机制 ,并且许多数据是由AJAX异步加载的 ,所以爬取相对来说比较复杂,
但是首页有一部分链接不是异步加载 ,而是由后端直接渲染的 .于是我们可以定向爬取这部分内容 ,也可以得到我们想要的数据 .
脚本执行原理 :
    手动写任务池 (可以自动爬出任务 : (首页上的所有类别 (例如 : PHP Python Java ...) )),
    利用do()爬取队列中相应类别的页面数据 ,
    得到该类别(例如:PHP)的总页数 ,遍历本页的所有的数据 ,把本页的数据吸入数据库 ,开始下一页 ,
    遍历所有页 ,开始进行任务池中的下一任务

注意事项

拉钩的反爬虫相当完善 有时候可能会爬出未登录的页面 ,手动到浏览器刷新一下 ,拿到Header数据即可 ,

酷我音乐 :

酷我的站点页面是由后端同步渲染 ,也没有进行比较高级的反爬虫 ,
所以爬取比较容易 ,脚本的执行原理 :
    初始化一个链接 ,然后脚本在酷我本站自我进行深度递归 ,任意爬取 ,遇到链接就加入队列 ,
    私循环爬取队列中的链接 ,得到是音乐的链接 ,插入数据库或记录的到文件 ,
    继续爬取队列中的下一个链接 ,直到完全结束

About

利用 bs4 爬取拉钩网4000 家企业的招聘信息 ,并录入数据库

License:MIT License


Languages

Language:Python 63.0%Language:HTML 19.2%Language:PHP 17.8%