Will Zhang
Will Zhang
very cool work, buddy!
hello, author, I run your code and it shows JSON error on response_data = json.loads(results) , and I print the response and see the results are all the scripts things,...
maybe you can share a more clear instruction in detail in your spare time, thanks a lot!
> 在我的日常的爬虫实践中,麻烦的地方的并不是网页内容分析和接口分析,而是各种子任务的管理,结果的保存,爬虫的工作情况的查看和控制,工作情况的保存,以及结果的展示等,所以我就把这些重复的工作提取出来形成了一个框架。 > 1.这个框架提供了爬虫工作过程中的重要功能,例如:队列管理,对于复杂的爬取任务,可能是多个子任务构成的,每个子任务都有相应的队列需要管理,这个框架通过装饰器的方式简化了队列的相关配置(并发,超时,时间间隔等),简化了队列的任务添加(AddToQueue),透明化任务的派发(FromQueue),在往队列中添加任务时,提供了过滤器接口,用来过滤重复任务(目前框架只提供了两种实现,NoFilter不过滤,BloonFilter通过job的key/url过滤),用户可以根据自己的特殊需要定义额外的过滤器,队列的实现现在有FIFO和优先级队列,用户也可以根据需要定义自己的队列。通过OnStart,OnTime,AddToQueue,FromQueue的组合,可以把一个复杂的任务分解为多个小任务,逐个解决,思路清晰。 > 2.puppeteer,cheerio不是框架强制要求使用的爬取解析工具;在这个框架里面,你可以使用任何你想使用的请求和解析的工具,puppeteer是通过factory的方式提供page(woker)来工作,cheerio是直接在任务过程中结合RequestUtil来解析静态html;puppeteer主要用于动态网页信息抓取,cheerio用于静态网页信息抓取;框架中对puppeteer的一些特性进行了改造,在factory中构建page对象时,做了一些修改,另外在PuppeteerUtil提供了一些常用的方法。 > 3.提供了运行状态的保存功能,重启后可以继续运行;停止任务时需要在网页管理界面停止系统并保存状态。 > 4.提供了网页管理界面,可以实时查看队列工作情况;另外通过DataUi提供了用户自定义数据交互的功能,方便实时展示数据,提供开发自定义交互工具的方案。 > 5.数据的保存非常方便,通过appInfo.db可以完成,是对nedb和mongodb的统一封装。 thanks for your enthusiastic description, it helps a lot!
Hi, Danielku15, how does it work, are there some functions supporting editing the score now?
> I'm not always here for the nuts and bolts. Sometimes, ladies and gentlemen, you have to dream big. I aspire to ask for a mobile app version of the...
这是来自QQ邮箱的假期自动回复邮件。已收到,-_-