outhsics / crawl

crawl web

实现步骤

抓取网站数据标签文章标签和文章的关系
把抓下来的数据保存到数据库(mysql)
开发一个网站展示这些数据
让用户可以登录，可以选择自己喜欢的标签
如果新的文章抓取下来了，需要把这个文章通过邮件推送给喜欢的人。
还有一个全文本检索的功能，保存文章的时候也会向elastic存一分，方便以后检查.
如何把这个爬虫项目布署到阿里云上，如何访问?

抓取数据

所有的标签 https://juejin.im/subscribe/all 保存到标签仓库
抓取标签下面的文章 https://juejin.im/tag/前端 把文章列表保存到数据库中，并且和标签进行关联
抓取文章的正文 https://juejin.im/post/5b762bace51d45556f41c431

About

crawl web

Languages

Language:JavaScript 72.0%Language:HTML 28.0%