madajie9
madajie9
您好,感谢您的代码分享。 我这边代码可以正常运行,使用了WSJ0的数据,在配置方面只是把Batchsize改成了8,并且只用了一个gpu,其他相同 但是我的前三个epoch的loss和您代码中conv_tasnet_loss.png中相差甚远: epoch/train loss/eval loss: 0/没有train loss/27.94 1/-0.191/-0.231 2/-0.239/-0.232 我的资源不是很多,所以训练比较慢,但是感觉这样下去,将无法达到您图中所示的loss下降曲线 gpu和Batchsize的影响真的这么大吗?还是可能有其他一些元音。
作者您好, 十分感谢您的慷慨分享,使我从论文和代码中学习和收获良多。 情况如下:我尝试用现有代码,训练体量和英文数据库相当的中文数据(200k左右张图片) 参考论文,将学习率设置为5e-4,并将epochs设置为150;同时,根据我自己的训练条件,vocab_size=6w左右,使用GPU资源 8xA6000,batchsize=1。 我有两点问题向您请教: (1)完成1个epochs需要4小时左右,那么估算来150epochs至少要25天,这和您的训练时长是相符的吗?因为我发现代码中并没有结束1epoch就进行evaluation的部分,而是一直训下去,evaluation是要单独运行的,这意味着训练过程不会early stop。 (2)训练loss在3epochs后下降到0.4左右,这个数字合理吗?因为我看最早一次对epoch checkpoint保存是10 epoch,在这之前只是不断更新checkpoint.pth,我理解这是到10epochs左右测试才比较有意义,但是到了3epochs loss=0.4左右的时候,loss的下降就变得缓慢了,请问这样正常吗? 再次感谢~期待您的回复。
一个小的代码修改意见: pt_seq_length=1024 所以在transformer.py decoder逐步输出inference结果时的for循环里 for i in range(self.args.pt_seq_length): i从0取到1023 embedding对于Position的编码应该也是0到1023 但是pt_hs = self.decode(pt_seq, memory, mask, pos_embed, 'pt')这一步输入到decode函数里的pt_seq,在i=0的时候,已经长度为7(应该是有prompt),所以会存在数组越界的情况。 数组越界就报错: RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMatmul( ltHandle, computeDesc.descriptor(), &alpha_val, mat1_ptr, Adesc.descriptor(),...
## ❓ Questions and Help I used Reference Free Model [Unbabel/wmt23-cometkiwi-da-xxl](https://huggingface.co/Unbabel/wmt23-cometkiwi-da-xxl) My source langauge is English, target language is Chinese. However there is some cases that the source(also target) text...