clark

Results 5 issues of clark

免费资源可用率不高,希望是一个付费ip和免费ip结合的代理池。 这时候就有一个问题:无限测试付费ip,只扣费了,但是实际业务没有在用代理。 希望优化付费代理按需使用机制: 付费代理只有在有爬虫需求的时候,启动拉取,并且定制从代理服务商拉取IP个数。

demand:10W web pages rendered into Base64 upload OSS one day

整套系统,更像是发布平台&运维管理工具。其实一些中大企业,不用虚拟机。 k8s管理平台,可以解决发布、定时任务、日志查看等等这些问题。 如果可以偏向于爬虫业务多一些,就更好了。 比如爬虫过程中的指标上报和监控,结果落库数据库的监控和聚合。 再加一些爬虫结合AI智能化的产品,比如低代码爬虫生成,比如一些实用小工具。 产品的出发点,是爬虫这个工作的工作平台,目的是提高产品和数据质量,任务和监控指标可视化,提高效率,降低成本,可视化交付物,甚至是kpi指标具象的体现,这个我觉得才是企业级的核心。