shelly

Results 8 comments of shelly

Have you solved this problem?

后台的打印信息: [debug] [SQL All]: SELECT * FROM f2f_model WHERE name like '%%' ORDER BY created_at DESC LIMIT 100 OFFSET 0 [] [debug] [SQL Get]: SELECT * FROM f2f_model WHERE id...

How did you implement merge, I encountered the same error, It looks like the model has no network parameters about Lora

> 找到一种可以缓解问题的办法。 flow模型的生成跟整体上下文相关,stream模式给一整段speech tokens强制切分为一段一段的,割裂了自然语音中上下文信息,所以stream的各个segment最后拼起来是有边界跳音的。 尝试采用In-Context Pormpt模式进行stream合成。即:除了stream第一个segment之外,后续的各个segment合成时,均使用上一个stream步骤的 speech tokens以及对应生成的 mel spec片段,作为prompt参数输入到 flow推理函数接口,这样合成的结果拼接起来后,整体的效果要比之前sft直接分片合成好得多。 但是这种方法只是能缓解,没办法根治。合成的语音听起来,有些片段拼接处还是有显著的听觉跳变 这种方式生成时间会有明显增加吗

我是通过把误差上限调高解决的,目前使用量化后的参数可以正常生成

我目前用开发分支微调了cosyvoice2的flow模型后,onnx格式转换出现了同样的报错,并且转trt后生成的内容都是NAN,推理时间增加,并打印很多报错 [04/03/2025-15:50:41] [TRT] [E] 3: [executionContext.cpp::setInputShape::2068] Error Code 3: API Usage Error (Parameter check failed at: runtime/api/executionContext.cpp::setInputShape::2068, condition: satisfyProfile Runtime dimension does not satisfy any optimization profile.) 你有没有这个报错

> > 我目前用开发分支微调了cosyvoice2的flow模型后,onnx格式转换出现了同样的报错,并且转trt后生成的内容都是NAN,推理时间增加,并打印很多报错 [04/03/2025-15:50:41] [TRT] [E] 3: [executionContext.cpp::setInputShape::2068] Error Code 3: API Usage Error (Parameter check failed at: runtime/api/executionContext.cpp::setInputShape::2068, condition: satisfyProfile Runtime dimension does not satisfy any optimization profile.) >...

我用的混合精度训练dev分支那个代码,官方有提供v1的flow训练代码吗,你可以看看是不是execute_v2执行失败导致的。我看folw的代码,v1和v2的forward只有加mask的方式不一样,正常v2部署没问题,v1应该也没问题,旧版共用了一个推理,更新这个加了cache我目前用是execute_v2正常execute_async_v3无法执行