outhsics / crawl

crawl web

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

实现步骤

  1. 抓取网站数据 标签 文章 标签和文章的关系
  2. 把抓下来的数据保存到数据库(mysql)
  3. 开发一个网站展示这些数据
  4. 让用户可以登录,可以选择自己喜欢的标签
  5. 如果新的文章抓取下来了,需要把这个文章通过邮件推送给喜欢的人。
  6. 还有一个全文本检索的功能,保存文章的时候也会向elastic存一分,方便以后检查.
  7. 如何把这个爬虫项目布署到阿里云上,如何访问?

抓取数据

  • 所有的标签 https://juejin.im/subscribe/all 保存到标签仓库
  • 抓取标签下面的文章 https://juejin.im/tag/前端 把文章列表保存到数据库中,并且和标签进行关联
  • 抓取文章的正文 https://juejin.im/post/5b762bace51d45556f41c431

About

crawl web


Languages

Language:JavaScript 72.0%Language:HTML 28.0%