CNodeCrawler

NodeJs 爬虫学习

如何爬取一个完整的帖子

大家都喜欢使用 Hello world 来作为入门或尝鲜的第一课。我觉得，应该从一开始就应该建立良好、谨慎的思维模式，否则，随着学习的深入，很有可能会陷入一个松垮模式的状态中，进而导致剪不断理还乱，最后不了了之！

爬虫的第一课通常是爬取某新闻网站或社区首页的帖子，并打印出这些文章或帖子的标题。

那实际的需求是什么呢？我觉得最简单的可能是：根据指定页面爬取所有的文章内容，包括标题、作者、作者信息、文章正文、所有图片附件等；所以，这里可能需要一个异步操作，来逐个获取完整的信息，并最终返回数据。

NodeJs 爬虫学习

MIT License

Language:JavaScript 48.4%Language:HTML 46.7%Language:CSS 4.9%