Scrapy_IPProxyPool icon indicating copy to clipboard operation
Scrapy_IPProxyPool copied to clipboard

免费 IP 代理池。Scrapy 爬虫框架插件

Results 5 Scrapy_IPProxyPool issues
Sort by recently updated
recently updated
newest added

得到的ip无法爬取网站,我想要爬取wandoujia,但得到的ip访问时timeout /Users/icst/Desktop/test_proxy/wandoujia/proxyPool/ProxyPoolWorker.py:81: SyntaxWarning: "is not" with a literal. Did you mean "!="? if proxy is not '': /Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages/pymysql/cursors.py:170: Warning: (1681, b'Integer display width is deprecated and will be removed in...

```python proxy = str(data[1], encoding="utf-8").lower() + "://" + str(data[0], encoding="utf-8") + ":" + str(data[2]) ``` 这条语句会报错: > TypeError: 'NoneType' object is not subscriptable 请问这个是因为什么呢?该怎么改?

scrapy使用代理ip,爬取的过程中ip失效了,使用代理ip请求超时,这个时候我该如何捕获,如何再次设置代理ip来继续爬取呢

我不明白你写的代码为什么与我新建项目生成的文件很不一样。 ![image](https://user-images.githubusercontent.com/33867666/62220159-2c604c00-b3e2-11e9-9a35-5af20c1d8d93.png) 你的东西都是你自己重写的吗?包括引擎都重写了吗? 最关键我按照你所说的运行,一直有错误。 ![image](https://user-images.githubusercontent.com/33867666/62220387-87923e80-b3e2-11e9-826c-5745d4d5ed85.png)

如题。 先贴上两张Log截图 ![tim 20181009114907](https://user-images.githubusercontent.com/11403290/46650565-95ff3780-cbcf-11e8-92f9-b0ee4d675feb.png) ![tim 20181009114923](https://user-images.githubusercontent.com/11403290/46650566-9697ce00-cbcf-11e8-8976-032f14e25639.png) 以下是`settings.py`的所有配置,不确定是我配置的有问题,还是其他地方出了问题,只要运行起来,刚开始可以爬到一些代理IP并存入数据库里,然后就开始自动进入我自己的爬虫程序。 ```from CommoditySpider.config.config import IF_USE_PROXY BOT_NAME = 'CommoditySpider' SPIDER_MODULES = ['CommoditySpider.spiders'] NEWSPIDER_MODULE = 'CommoditySpider.spiders' USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,...