feapder issues

chrome 的渲染遇到一个 js 卡住了整个标签页

3

chrome 的渲染有个问题， selenium + chrome 访问 https://baijiahao.baidu.com/s?id=1739368224007714423 时，浏览器会一直加载一个 js 文件，造成该标签页卡住，然后浏览器就无法响应其他行为（刷新，获取页面源码，访问其他url……），feapder 是否可以加一个参数来禁止加载 js。如果以上链接失效，请访问以下任意链接： https://baijiahao.baidu.com/s?id=1739304797053642547&wfr=spider&for=pc https://baijiahao.baidu.com/s?id=1739377098661725506&wfr=spider&for=pc https://baijiahao.baidu.com/s?id=1739377692137820326&wfr=spider&for=pc https://baijiahao.baidu.com/s?id=1739377788266450267&wfr=spider&for=pc

pgshow

feapder命令行功能实现代码替换

andy0andy

分布式爬虫如何定义爬虫间的依赖关系

1

例如我有一个列表爬虫，然后有一个详情爬虫，我将他们集成起来，如何定义依赖关系

TestsLing

任务爬虫-TaskSpider - feapder-document

https://boris.org.cn/feapder/#/usage/TaskSpider feapder官方文档

Boris-code

Gitalk

/usage/TaskSpider

日志重复输出

2

![image](https://user-images.githubusercontent.com/14148974/178107302-52d509a7-9d9c-42a6-b511-f5792ded52ee.png) 控制台会重复输出相同的日子

xihacode

keep-alive和session无效，http/https连接无法复用

1

有一个问题哈，scrapy的http/https连接是可以复用的，如图，并发数设为30他就会开30条连接，不会在每次爬取时反复断开重连，非常稳定 ![5V3WW(7NYT 4VDSE$84(JJ](https://user-images.githubusercontent.com/39302391/175807256-9a4d1f07-49af-492b-81f0-4d5f0946a08a.png) 但是feapder的连接，无论我把keep-alive设为true，还是说添加session，都没有办法让请求复用，会不断地断开重连（这个可能是requests库的问题），如图，图中部分线程的连接自动释放掉了，每波任务都会产生30次tcp连接/断开，这个数量始终在波动，并发数高了非常容易报代理错误 ![OREY FH(P(2{)%TAT`O~2D7](https://user-images.githubusercontent.com/39302391/175807277-9fe058db-9010-433a-a77d-46a9b3865079.png) 我的代理池是使用负载均衡方式自建的本地隧道代理，差不多每十波左右的任务就会报一次错误，由于连接不断重连/释放，对本地的代理软件也不友好，日志记录飞起，如果开启日志，我的clash能吃掉半个核心和2g的内存 ![AJ}Q1B{C_B@J_0RFJ{H1Y`D](https://user-images.githubusercontent.com/39302391/175807313-1f585c8d-2e62-45bc-9d3b-0f7fa94ec138.png)

dream2333

海量数据去重-dedup - feapder-document

8

https://boris.org.cn/feapder/#/source_code/dedup Description

Boris-code

Gitalk

/source_code/dedup

简介及安装 - feapder-document

12

https://boris.org.cn/feapder/#/README Description

Boris-code

Gitalk

/README

feapder-document

29

https://boris.org.cn/feapder/#/ Description

Boris-code

Gitalk

/

有什么方法主动停掉爬虫吗?

1

就像scrapy的信号机制那样? 我的项目实际运行过程中有两个问题, 代理和token都有限制, 我需要在middleware中先判断两者是否有效, 都有效时修改url/headers/proxies等参数正常请求. 其中一个无效都需要停掉爬虫等待定时任务下次启动. 这个项目又用到batch_spider, 目前的解决方案有些复杂. 检测到代理或token失效时, 把task表中所有非1的任务更新成-1, 让爬虫以为本批次全部完成正常结束; 下次定时任务再把-1改0, 同时还要把record中的完成状态改0, 让爬虫启动~

ybw-github

feapder
feapder copied to clipboard

Metadata

chrome 的渲染遇到一个 js 卡住了整个标签页

feapder命令行功能实现代码替换

分布式爬虫如何定义爬虫间的依赖关系

任务爬虫-TaskSpider - feapder-document

日志重复输出

keep-alive和session无效，http/https连接无法复用

海量数据去重-dedup - feapder-document

简介及安装 - feapder-document

feapder-document

有什么方法主动停掉爬虫吗?

← Metadata

Owner

Metadata

feapder feapder copied to clipboard

Metadata

← Metadata

Owner

Metadata

feapder
feapder copied to clipboard