Gavin Tao comments

Results 2 comments of


                                            Gavin Tao

Bug: DataFrame creation fails due to mismatched array lengths in step5_splitforsub.py

我不是这个project的开发者哈，不过我也遇到了这个问题，就稍稍研究了一下。因为这个切割是交给大语言模型去完成的，有些大语言模型不是很稳定，在切割时会出问题。比如这句话：`can be seen after the rapid consumption of around 1,200 milligrams of caffeine.`，它长度超过了75字节，所以需要切割，然后大语言模型给的切割建议是`["can be seen after the rapid consumption of around 1,200 milligrams of caffeine", "."]`，只切割了一个句号，所以split_src和split_trans都增加了，最后导致的就是remerged比它们数量要少。然后下一次attempt的时候，大语言模型又把caffeine的e切掉了。所以导致的结果就是，总共只有3次尝试，但是每次都切得有问题，比如只切一个字母，导致这句话下次还得切。所以remerged的数量就永远追不上split_src，因为它一直在增加。我的解决办法就是在`def process(i)`这个方法里，加一句判断，把这种切割时抽风的情况排除掉 ``` def process(i):...

Bug: DataFrame creation fails due to mismatched array lengths in step5_splitforsub.py

或者，把这个地方的3增大也能解决 ``` for attempt in range(3): # 使用固定的3次重试 ```