DPRNN的前几代的loss大概是多少
首先感谢博主分享了自己的开源代码,其次我有2个问题需要咨询下,因为您这个代码是适用于8k,我想改成16k,是不是修改相关的每一块的chunk_size K=sqrt(2乘16000乘4)约等于360。之前是8k对应250。第二点:想咨询下我用这个代码来做降噪发现loss都维持在17-18左右,想问下您用DPRNN做人声分离前几代的loss是大概多少的样子。期待您的回复。
对于第一个问题:chunk_size K = 360是可以的。 第二个问题:我没有处理过降噪的任务,因此不能准确地知道你的17~18 dB是好还是坏。对于speech separation来说,前几个epoch应该是可以到13 dB左右。
loss都维持在17-18左右:这个是print出来的值还是-loss的值?
博主您好,是print的loss值,所以我觉得我应该是不对的。因为我跑过DCCRN的代码,loss也是用sisnr,但是loss值就是负数。我想向您确认一个事情,你做语音分离的时候,加入mix信号=spk1+spk2*0.5。那么两个参考信号是spk1和spk2还是说是spk1和0.5spk2。我半夜睡不着,忽然想到的问题,我觉得我应该是在这里出问题了人。
mix=spk1+spk2*0.5,那么你分离的结果就是spk1,spk2+0.5。
那我应该是参考信号选错了。mix=spk1+0.5*spk2,那么它送入loss函数的label应该是spk1和0.5spk2,而非spk1和spk2,我这样理解对吗?
是的
博主您好,我最近再仔细阅读您的代码,有一个问题我不太明白,gap = K - (P + L % K) % K这个gap为何是怎么算的?
这个目的是为了让不是完整秒数(例如1,2,3,4ms等)的输入输出保持一致。这个你仔细推一下就明白了
想請問1樓的算的每一块chunk_size K=sqrt(2乘16000乘4) 原始公式代表意思? 自己的數據是16k k值理想能設定哪些 謝謝