NovaTrace88

Results 4 comments of NovaTrace88

绝大部分的请求库都不是为了爬虫而设计的,这些请求库的设计从一开始就假定网络是一个稳定的网络,从而造成了很多bug只有在爬虫场景下才能出现, 1. 如果代理是隧道,请求库最佳做法是,提供一个api 可以关闭底层连接,比如当用户使用一个连接发送请求返回403的时候直接把这个连接杀死,如何还能用的话就自动放回连接池,这样的话爬虫的效率是最高的。 2. 如果代理不是隧道的话,因为代理具有实效性,且客户端根据代理url 进行连接复用,会出现一种情况用户不使用这个代理了,但是连接池还有这个代理的连接存在,如果请求库没有实时监听这个代理连接的状态会导致这个资源泄露。请求库需要实时关注每一个连接的连接状态,一旦连接异常无论这个连接是否使用就及时的释放资源。

你这样做可以连接复用吗,每次新建一个连接 切换一个ip ,在高并发场景下 有哪个代理公司有这么多ip可以给你随便切换,很好奇,可以介绍下这个代理吗

@feeops 明白了,研究了下轮转代理 ,这种代理几乎每家都会限制并发量,并发量越高价格越昂贵,怪不得,大佬土豪啊。

@feeops 代理最好复用连接,这样在高并发情况下才能充分利用资源。你应该在只有遇到ip 封禁问题的情况下再把连接断开,这样速度会快很多