Xuye Qin
Xuye Qin
cola会重试出错的页面,这个页面在多次重试后还是会出现么? 通常来说,调试的话直接查看页面的dom树,因为这些html会被插入到当前网页里。所以可以用bs4解析dom树以后基本和网页一样,只是说只是网页中的一部分而已。
原则上,上面的代码找出来的div应该是包括下面的div的。这样做的理由是什么呢?
不是,这里find_all方法找出来的是包含这个class的就都会出现。之前这种找不到确实比较费解。这个有待考证
这是个历史遗留问题了,有的账号还不能重现。如果我不能重现问题的话,还需要你提供相关的原始文件之类的。
应该是可以的,相关功能在develop merge到master后实现。
不退出是在分布式模式下?在分布式模式下,需要用coca命令来kill job。 在local模式下,可以通过ctrl+c退出。 原因是,在分布式模式下,任意一个worker接受信号退出是不正确的行为。
我理解你是要看到执行时间等相关运行时信息吧。 其实有个counter_client,那里面应该有执行时间等的相关信息。
OK,当初的做法是单机模式下,会检查,过一段时间没有任务的话,才会退出;分布式下不做这个处理,等待budget完成,才会退出。 你的做法是想让他有要抓取的,才会去更新budget是吧? 不知道在多个worker的时候,会不会导致任务提前终止了,这个如果能解决应该还是不错的改进。
基本也是模拟登录。
weibosearch并没有适配cola上的修改。 短期内,weibosearch应该不会支持,未来会进行重写。