luchatex
luchatex
使用代理的情况下,会出现强转失败,可能是因为 HttpRequestWrapper过时了吧.
使用代理,遇到该ip失效,返回的是错误页面信息,强转request失败,造成该次请求丢失,没有添加到任务队列,报错, HttpRequestWrapper强转失败 07-02 13:47:21 DEBUG org.apache.http.impl.client.DefaultRedirectStrategy.getLocationURI(DefaultRedirectStrategy.java:142) - Redirect requested to location 'http://www.ivrn.net/warning/?n=20243&reason=3&s=16&id=11276903:8&ts=1498974427&str=BillingSet&referer=&cookie=&host=xxx.cn&url=/xxx/xxx¶ms=' 07-02 13:47:21 ERROR us.codecraft.webmagic.downloader.CustomRedirectStrategy.getRedirect(CustomRedirectStrategy.java:37) - 强转为HttpRequestWrapper出错 上面网址我用xxx替换了
Httpclient 4.5.2 已经使用final HttpRequest redirect = this.redirectStrategy.getRedirect( currentRequest.getOriginal(), response, context); 不强转为 过时的 HttpRequestWrapper,建议修改下.
HttpClient 中已有 方法 建议修正下. final int status = response.getStatusLine().getStatusCode(); if (status == HttpStatus.SC_TEMPORARY_REDIRECT) { return RequestBuilder.copy(request).setUri(uri).build(); } else { return new HttpGet(uri); }
补充:使用数字为0不可查询,其他数字正常,0则不会后端发送
另外每次页面读取非常快,但返回要等好久
补充: 以下内容有变化 ,不要拉去0.6.3 要修改daemon.json 拉取hub.docker.com的最新latest版本 crawlabteam/crawlab:latest version: '3.3' services: master: image: crawlabteam/crawlab:0.6.3 container_name: crawlab_master restart: always environment: CRAWLAB_NODE_MASTER: "Y" # Y: 主节点 CRAWLAB_MONGO_HOST: "xxx.xxx.xxx.xxx" # mongo host address. CRAWLAB_MONGO_PORT: "27017"...
 添加docker node报错,删除Node的异常截图
docker 的daemon.json 不要使用阿里云镜像站,latest拉下来是旧版本,可增加如下内容,拉取latest最新版本 { "registry-mirrors": [ "https://docker.mirrors.sjtug.sjtu.edu.cn" ] }
docker image更换到 v0.6.0就可以正常显示