djyuning / CNodeCrawler

NodeJs 爬虫学习

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

CNodeCrawler

NodeJs 爬虫学习

如何爬取一个完整的帖子

大家都喜欢使用 Hello world 来作为入门或尝鲜的第一课。我觉得,应该从一开始就应该建立良好、谨慎的思维模式,否则,随着学习的深入,很有可能会陷入一个松垮模式的状态中,进而导致剪不断理还乱,最后不了了之!

爬虫的第一课通常是爬取某新闻网站或社区首页的帖子,并打印出这些文章或帖子的标题。

那实际的需求是什么呢?我觉得最简单的可能是:根据指定页面爬取所有的文章内容,包括标题、作者、作者信息、文章正文、所有图片附件等;所以,这里可能需要一个异步操作,来逐个获取完整的信息,并最终返回数据。

About

NodeJs 爬虫学习

License:MIT License


Languages

Language:JavaScript 48.4%Language:HTML 46.7%Language:CSS 4.9%