似乎没有深度控制？

Question

chenliang100 opened this issue 8 years ago · comments

老师，您好！
似乎没有看到对爬虫进行深度控制，导致爬虫效率降低，大部分的时间都浪费在判断重复链接上了？

http://ilazycat.com/ 的爬取好像就很费时间，是这个原因造成的么?

可是如果想加上深度控制，我能想到的是在记录url的同时，增加一个参数，记录它的深度，但是目前采用的bdb的方式只能存储一对键值改起来好像挺麻烦的，您有没有什么好的解决办法？

谢谢老师！