stream2000

Results 7 issues of stream2000

当爬虫因为风控被杀,本次爬取的进度距离上一次爬取完成可能存在一定的空洞。不过这个问题可以通过刷赞的爬虫解决,因为refresh like停止的条件是时间范围,所以按照目前策略只要是七天内发布的评论 最后一定都会被收录。 但是,爬虫被杀导致的评论空洞仍然是一个客观存在的问题,在本issue记录。

bug
enhancement

设计类似@成分姬的系统,可以通过@收录专栏文章到枝网参考对比库中。 1. 参考对比库的设计与实现。参考库不计算点赞数等,但要能通用支持b站评论区以外的小作文收录。 2. 定时专栏/二创的艾特并爬取相关内容加入参考库。 3. 适配参考库的查重。

enhancement

目前点赞数更新的策略可以保证每个评论在发布了一周后,它的赞数会被不断更新。 但是,这种策略无法处理类似《猫中毒》这样比较火热的视频。以《猫中毒》为例,部分热门评论点赞数在第一次爬取的几个月内的增量可以达到几千,合理的更新策略不应该使得数据库里的点赞数和现实差距过大。 为此,应当更新点赞策略。

bug
enhancement

作文展页面添加随机作文api,在全部时间累积点赞榜中随机选取十篇(不是随机选一页),点赞数阈值可以调高一点,可能可以提高质量。

enhancement

### Change Logs Poc code for Partition ttl management ### Impact NONE ### Risk level (write none, low medium or high below) NONE ### Documentation Update NONE ### Contributor's checklist...

**_Tips before filing an issue_** - Have you gone through our [FAQs](https://hudi.apache.org/learn/faq/)? - Join the mailing list to engage in conversations and get faster support at [email protected]. - If you...

spark-sql

**_Tips before filing an issue_** - Have you gone through our [FAQs](https://hudi.apache.org/learn/faq/)? - Join the mailing list to engage in conversations and get faster support at [email protected]. - If you...

schema-and-data-types
priority:critical