SEtrain 实时性和因果性

你好，请问你的GTCRN模型，能够保证实时性和因果性吗？

Apr 01 '24 06:04 wanghao0225

@wanghao0225 GTCRN是一个因果模型，在12th Gen Intel(R) Core(TM) i5-12400 CPU @ 2.50 GHz测得的实时率为0.07，完全可以保证实时性要求。

Apr 01 '24 06:04 Xiaobin-Rong

感谢回答，恭喜恭喜，你的模型效果太惊艳了。

Apr 01 '24 06:04 wanghao0225

感谢支持！

Apr 01 '24 06:04 Xiaobin-Rong

感谢支持！

你好，首先非常感谢你的这项工作，在DNS盲测数据集确实有比较好的体验效果，但是我测了我们真机测试集，降噪效果是有限的，我怀疑是ERB这种频带压缩造成的信号建模不佳，一个是用你提供是checkpoint，另一个是用我自己的数据集，替换你的模型重新训练的，好像都比较有限。个人认为，在一些稍微好点的算力平台，增大模型参数和算力，能够带来更好的降噪效果！

Apr 17 '24 07:04 shenbuguanni

基于VCTK数据集，我在复现的时候，PESQ的值不到2.8(只改了模型部分，语音处理成了4s)，请问vctk数据集，你在数据处理的时候，语音是如何处理的？

Apr 17 '24 10:04 wanghao0225

基于VCTK数据集，我在复现的时候，PESQ的值不到2.8(只改了模型部分，语音处理成了4s)，请问vctk数据集，你在数据处理的时候，语音是如何处理的？

vctk数据集每条语音长度差别太大了，我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况，我认为是vctk数据集的测试集和训练集分布差异太大的原因：测试集的信噪比太高了。一般这种情况，换个随机种子重新训一下就好。

Apr 24 '24 02:04 Xiaobin-Rong

感谢支持！

你好，首先非常感谢你的这项工作，在DNS盲测数据集确实有比较好的体验效果，但是我测了我们真机测试集，降噪效果是有限的，我怀疑是ERB这种频带压缩造成的信号建模不佳，一个是用你提供是checkpoint，另一个是用我自己的数据集，替换你的模型重新训练的，好像都比较有限。个人认为，在一些稍微好点的算力平台，增大模型参数和算力，能够带来更好的降噪效果！

是的，模型压缩得太小时，性能会急剧下降。如果对运算量的限制可以放宽些的话，可以把模型调大些（直接调整Encoder/Decoder内各GTConv/Conv层的隐藏通道数即可），会得到更好的性能。

Apr 24 '24 02:04 Xiaobin-Rong

实测ERB频带处理对信号有影响，但在可接受范围内。模型主要问题还是可能参数太小，SNR低的时候过度抑制的厉害，是否有什么好的办法？另外，我看输出CRM的虚部mask值都很小，贡献不大，尝试把输出虚部mask置0对结果几乎没影响，请问是否对比过仅实部mask的指标差异？

May 10 '24 02:05 songdaw

@songdaw 低SNR环境下，小模型确实存在比较大的性能劣化。目前我也正在研究如何进一步提高小模型的性能。另外，有测试过纯幅度mask的性能，其实和复数mask差别不大。

May 10 '24 11:05 Xiaobin-Rong