webmagic icon indicating copy to clipboard operation
webmagic copied to clipboard

在添加新的url时就把该url加入去重队列是否合适?

Open jinhaolin opened this issue 6 years ago • 2 comments

在添加新任务时,源码中时这样实现的

image

上面的判断条件 isDuplicate 是用来判断url是否在去重队列中,如果没被去重,才可以加入未抓取任务队列,该方法源码中实现:

image

上面的实现是通过往set中添加url的方式,根据返回值来判断之前该url是否存在set中。这就表示,在判断的同时,就把要抓取的url添加到了去重集合中。

我的问题: 如果该url由于网站本身的问题,导致我这次未抓取成功。过几天我再抓取时,就会被去重功能过滤掉,导致即使抓取出错也不能再次进行抓取。 这里为什么不设计成当页面抓取完成以后再把url加入去重集合中。或者其他更合理的方式解决我的问题。

Webmagic我是初次接触,也可能存在理解偏差,望作者或者了解的大神们能帮忙解答,万分感谢。

jinhaolin avatar May 29 '19 06:05 jinhaolin

同感

yuweiming2016 avatar Jan 29 '21 05:01 yuweiming2016

同感,例如在第一轮爬取失败且重试仍然失败后,该URL会被标记,在不初始化的情况下,该URL的状态不能改变,总的就是不太方便,有机会看看Remover有没有改进的机会。

catfishlty avatar Mar 12 '21 09:03 catfishlty