SEtrain icon indicating copy to clipboard operation
SEtrain copied to clipboard

实时性和因果性

Open wanghao0225 opened this issue 1 year ago • 9 comments

你好,请问你的GTCRN模型,能够保证实时性和因果性吗?

wanghao0225 avatar Apr 01 '24 06:04 wanghao0225

@wanghao0225 GTCRN是一个因果模型,在12th Gen Intel(R) Core(TM) i5-12400 CPU @ 2.50 GHz测得的实时率为0.07,完全可以保证实时性要求。

Xiaobin-Rong avatar Apr 01 '24 06:04 Xiaobin-Rong

感谢回答,恭喜恭喜,你的模型效果太惊艳了。

wanghao0225 avatar Apr 01 '24 06:04 wanghao0225

感谢支持!

Xiaobin-Rong avatar Apr 01 '24 06:04 Xiaobin-Rong

感谢支持!

你好,首先非常感谢你的这项工作,在DNS盲测数据集确实有比较好的体验效果,但是我测了我们真机测试集,降噪效果是有限的,我怀疑是ERB这种频带压缩造成的信号建模不佳,一个是用你提供是checkpoint,另一个是用我自己的数据集,替换你的模型重新训练的,好像都比较有限。个人认为,在一些稍微好点的算力平台,增大模型参数和算力,能够带来更好的降噪效果!

shenbuguanni avatar Apr 17 '24 07:04 shenbuguanni

基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的?

wanghao0225 avatar Apr 17 '24 10:04 wanghao0225

基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的?

vctk数据集每条语音长度差别太大了,我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况,我认为是vctk数据集的测试集和训练集分布差异太大的原因:测试集的信噪比太高了。一般这种情况,换个随机种子重新训一下就好。

Xiaobin-Rong avatar Apr 24 '24 02:04 Xiaobin-Rong

感谢支持!

你好,首先非常感谢你的这项工作,在DNS盲测数据集确实有比较好的体验效果,但是我测了我们真机测试集,降噪效果是有限的,我怀疑是ERB这种频带压缩造成的信号建模不佳,一个是用你提供是checkpoint,另一个是用我自己的数据集,替换你的模型重新训练的,好像都比较有限。个人认为,在一些稍微好点的算力平台,增大模型参数和算力,能够带来更好的降噪效果!

是的,模型压缩得太小时,性能会急剧下降。如果对运算量的限制可以放宽些的话,可以把模型调大些(直接调整Encoder/Decoder内各GTConv/Conv层的隐藏通道数即可),会得到更好的性能。

Xiaobin-Rong avatar Apr 24 '24 02:04 Xiaobin-Rong

实测ERB频带处理对信号有影响,但在可接受范围内。模型主要问题还是可能参数太小,SNR低的时候过度抑制的厉害,是否有什么好的办法? 另外,我看输出CRM的虚部mask值都很小,贡献不大,尝试把输出虚部mask置0对结果几乎没影响,请问是否对比过仅实部mask的指标差异?

songdaw avatar May 10 '24 02:05 songdaw

@songdaw 低SNR环境下,小模型确实存在比较大的性能劣化。目前我也正在研究如何进一步提高小模型的性能。 另外,有测试过纯幅度mask的性能,其实和复数mask差别不大。

Xiaobin-Rong avatar May 10 '24 11:05 Xiaobin-Rong