Jiawen Lin

Results 37 issues of Jiawen Lin

比如新能源汽车,化学。。。的5、15,30,60分钟K线数据。

将国外站点的抓取智能调度到ping 速度最快的集群/机器上。

平均处理时间不包括网络下载时间。平均处理时间为线程的sleep策略提供了一种可以调优的参照。

- 接受并传送给处理器 - 接受但是抛弃

- 一个URL完成 - 一批(Group)完成 - 一组完成 - 整个任务完成 > > 之后发送消息,回调某个其他接口。

只解析不走网络。另外解析过程中可以定义插件扫描html模版是否在覆盖范围内。

可以测试 - 正则 - 代理 - css选择器 - 文章自动提取 - xpath - 分页 - 链接

有的任务不在乎数据完全到,只在乎在多久内能大致抓多少。 例如要求 ``` ’在早上7点开始后的2个小时内抓500条新闻 ``` 这样可以无需delay之后重试。

外部站点宕机。 1,如果是立马重试,不行错误。 2,延迟处理。但是有的又不需要。比如非常强大的站点。 基于上面两点,需要加一个开关:是否delay. delay时间。