Gavin Tao

Results 2 comments of Gavin Tao

我不是这个project的开发者哈,不过我也遇到了这个问题,就稍稍研究了一下。因为这个切割是交给大语言模型去完成的,有些大语言模型不是很稳定,在切割时会出问题。比如这句话:`can be seen after the rapid consumption of around 1,200 milligrams of caffeine.`,它长度超过了75字节,所以需要切割,然后大语言模型给的切割建议是`["can be seen after the rapid consumption of around 1,200 milligrams of caffeine", "."]`,只切割了一个句号,所以split_src和split_trans都增加了,最后导致的就是remerged比它们数量要少。然后下一次attempt的时候,大语言模型又把caffeine的e切掉了。所以导致的结果就是,总共只有3次尝试,但是每次都切得有问题,比如只切一个字母,导致这句话下次还得切。所以remerged的数量就永远追不上split_src,因为它一直在增加。我的解决办法就是在`def process(i)`这个方法里,加一句判断,把这种切割时抽风的情况排除掉 ``` def process(i):...

或者,把这个地方的3增大也能解决 ``` for attempt in range(3): # 使用固定的3次重试 ```