下载一个博主的博文,但是出现“已获取xxx的第200页微博”,后面只是出现第几页微博,但是没有具体的内容显示。
这个需要添加有效cookie,否则无法获取超过200页的部分。
感谢回复。添加了以后,问题依然没有解决,数据差不多还是200页的情况,只是显示的错误如下: (我这次从120页开始) Progress: 19%|█▉ | 68/353 [3:17:56<7:09:30, 90.42s/it] 'data' Traceback (most recent call last): File "D:\EclipseAI\workspace\weibo-crawler-master\weibo.py", line 1114, in get_one_page weibos = js["data"]["cards"] KeyError: 'data'
有可能添加的cookie无效。
感谢回复,怎么状态算是有效的cookie
感谢作者的详细说明。 1)https://m.weibo.cn/ 每次刷新则cookie会有些变化,对应更改(config.json中的“cookie”)。
2)https://github.com/dataabc/weibo-crawler#%E5%A6%82%E4%BD%95%E6%A3%80%E6%B5%8Bcookie%E6%98%AF%E5%90%A6%E6%9C%89%E6%95%88%E5%8F%AF%E9%80%89 参考以上网页。 尝试了几次,按照操作方法里面的1,2,3。能够看到提示cookie检查有效后。重新回到之前不能抓取的内容继续往下一页(config.json中的“start_page”改为190页)。成功了。 总结:获取的cookie需要验证有效以后才能抓取多于200页的博文。