tottilin

Results 5 issues of tottilin

任务现场保存问题,1. 任务现场保存在tmp里面,重启pc tmp会被清空 2. 提供一个删除任务目录的接口

分布式爬取中,worker的主备mq同步问题,目前缺少主备同步机制,也就是说在主正常运行过程中,备一直接收url或者bundle放在mq中,一旦主worker挂了,备又会把主之前跑过的url或者bundle执行一遍。这样会比较耗时,可以做一个定时同步机制,这样备中的数据不会有很多冗余

Exception in thread Thread-2: Traceback (most recent call last): File "/usr/local/lib/python2.7/threading.py", line 551, in **bootstrap_inner self.run() File "/usr/local/lib/python2.7/threading.py", line 504, in run self.__target(_self.__args, *_self.__kwargs) File "/usr/crawl/code/cola-code/cola/core/mq/__init**.py", line 103, in _init_process...

1.http error 404 没有丢弃url 2.其他错误在爬虫执行完后,继续尝试,但不能无限次尝试(有的时候会出现爬虫任务根本停不下来)

question

之前是抓取pinterest网站的数据,大概重现需要五个小时,所以在您的帮助下,开启一个daemon线程去openUrl,到期报错来打断(使其不被卡住)。 现在在抓取tumblr,发现很容易出现这种情况几分钟就出来一次

question