jiangqizheng / cnblogs_spider

博客园爬虫_Node

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

cnblogs_spider

博客园爬虫_基于Nodejs+mongodb

个人练习(欢迎交流),代码内有详细备注

功能

  • 抓取博主信息及对应的所有文章信息
  • 存入数据库,分析
  • 简单修改代码可以做到更深层抓取...可自行修改哈,此项例子只做参考

逻辑

  1. 以首页为入口,抓取4000条初始文章url,匹配数据库剔除重复
  2. 解析文章页url,获取用户主页url
  3. 解析用户主页,判断是否存在多个页面,获取当前用户所有文章url,匹配数据库剔除重复
  4. 抓取文章,调用数据库更新用户数据及博客数据

使用说明及启动

第一步:安装依赖 ————npm install 
第二步:运行mongodb ————mongod --dbpath c:\mongo 
第三步:运行爬虫 ————node app.js

欢迎一同学习交流,且学且努力

蒋启钲 17826811002@163.com

About

博客园爬虫_Node


Languages

Language:JavaScript 100.0%