Will Zhang comments

Results 7 comments of


                                            Will Zhang

Run in production

very cool work, buddy!

I think it's not useful for the UG now

hello, author, I run your code and it shows JSON error on response_data = json.loads(results) , and I print the response and see the results are all the scripts things,...

请问这个库与superagent+cheerio方式实现爬虫相比有什么特点呢

maybe you can share a more clear instruction in detail in your spare time, thanks a lot!

请问这个库与superagent+cheerio方式实现爬虫相比有什么特点呢

> 在我的日常的爬虫实践中，麻烦的地方的并不是网页内容分析和接口分析，而是各种子任务的管理，结果的保存，爬虫的工作情况的查看和控制，工作情况的保存，以及结果的展示等，所以我就把这些重复的工作提取出来形成了一个框架。 > 1.这个框架提供了爬虫工作过程中的重要功能，例如：队列管理，对于复杂的爬取任务，可能是多个子任务构成的，每个子任务都有相应的队列需要管理，这个框架通过装饰器的方式简化了队列的相关配置（并发，超时，时间间隔等），简化了队列的任务添加（AddToQueue），透明化任务的派发（FromQueue），在往队列中添加任务时，提供了过滤器接口，用来过滤重复任务（目前框架只提供了两种实现，NoFilter不过滤，BloonFilter通过job的key/url过滤），用户可以根据自己的特殊需要定义额外的过滤器，队列的实现现在有FIFO和优先级队列，用户也可以根据需要定义自己的队列。通过OnStart，OnTime，AddToQueue，FromQueue的组合，可以把一个复杂的任务分解为多个小任务，逐个解决，思路清晰。 > 2.puppeteer，cheerio不是框架强制要求使用的爬取解析工具；在这个框架里面，你可以使用任何你想使用的请求和解析的工具，puppeteer是通过factory的方式提供page（woker）来工作，cheerio是直接在任务过程中结合RequestUtil来解析静态html；puppeteer主要用于动态网页信息抓取，cheerio用于静态网页信息抓取；框架中对puppeteer的一些特性进行了改造，在factory中构建page对象时，做了一些修改，另外在PuppeteerUtil提供了一些常用的方法。 > 3.提供了运行状态的保存功能，重启后可以继续运行；停止任务时需要在网页管理界面停止系统并保存状态。 > 4.提供了网页管理界面，可以实时查看队列工作情况；另外通过DataUi提供了用户自定义数据交互的功能，方便实时展示数据，提供开发自定义交互工具的方案。 > 5.数据的保存非常方便，通过appInfo.db可以完成，是对nedb和mongodb的统一封装。 thanks for your enthusiastic description, it helps a lot!

Will Zhang

Run in production

I think it's not useful for the UG now

请问这个库与superagent+cheerio方式实现爬虫相比有什么特点呢

请问这个库与superagent+cheerio方式实现爬虫相比有什么特点呢

Adding/removing music notes dynamically?

Mobile app.

Run in production