CNodeCrawler
NodeJs 爬虫学习
如何爬取一个完整的帖子
大家都喜欢使用 Hello world
来作为入门或尝鲜的第一课。我觉得,应该从一开始就应该建立良好、谨慎的思维模式,否则,随着学习的深入,很有可能会陷入一个松垮模式的状态中,进而导致剪不断理还乱,最后不了了之!
爬虫的第一课通常是爬取某新闻网站或社区首页的帖子,并打印出这些文章或帖子的标题。
那实际的需求是什么呢?我觉得最简单的可能是:根据指定页面爬取所有的文章内容,包括标题、作者、作者信息、文章正文、所有图片附件等;所以,这里可能需要一个异步操作,来逐个获取完整的信息,并最终返回数据。