Jiawen Lin

Results 8 comments of Jiawen Lin

Same problem

某些特别烂的站点,时好时不好,需要打持久战。

对于弱网从集群上选一个节点。 然后从1个线程1秒一个网页开始,逐步增大抓取频率。 一旦达到设定的期望阈值,则开启第二个集群节点。 一旦遇到超时率过高则减少集群节点,再次降低单个node频率,直到最低频。

目前的配置文件毕竟是简单的键值关系,更倾向于是一种properties文件。 考虑使用这个 http://jodd.org/doc/props.html

jodd提供的props里不能存储Object类型。其次考虑到以后配置要分组,因此还是保留yaml

1. 对于ajax请求不应该再放回到大的分布式队列,例如redis里。而是应该从脚本返回接口之后,直接将ajax的链接在内存里保持一个小的队列处理掉。 2. 补充想法: 小的内存队列需要`FIFO`, `FILO`模式。

并非使用zip压缩