VillanCh / scraplat

I'm trying to finish the scraplat as a scraper platform

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

似乎没有深度控制?

chenliang100 opened this issue · comments

老师,您好!
似乎没有看到对爬虫进行深度控制,导致爬虫效率降低,大部分的时间都浪费在判断重复链接上了?

http://ilazycat.com/ 的爬取好像就很费时间,是这个原因造成的么?

可是如果想加上深度控制,我能想到的是在记录url的同时,增加一个参数,记录它的深度,但是目前采用的bdb的方式只能存储一对键值 改起来好像挺麻烦的 ,您有没有什么好的解决办法?

谢谢老师!