太郎君

Results 71 comments of 太郎君

> 为啥你的 loss 可以降到这么低,我训的始终是 0.006 以上啊 当时只是为了跑通流程,所以数据集不大

> Yes, thanks for the recommendation. I tried doing so mainly to support Chinese, however the mapping became more complex and the output features weren't always convincing as noticed from...

> I tried retraining the model and syncnet with the latest version of deepspeech but this didn't lead to nice results compared to using the originally trained model. The generalization...

很好奇,为什么推理时使用 wav2vec + wav2vecDS生成的音频特征,但是训练时用的却是 deepspeech。两者不应该都采用 wav2vec + wav2vecDS吗?看了上面的记录,好像是训练时使用 wav2vec + wav2vecDS对中文支持好了,但是其他语言又变差了,不知道我理解的对不对。如果只需要支持中文,是不是训练和推理时都使用 wav2vec + wav2vecDS,效果会比较好 I'm curious why the audio features generated by wav2vec + wav2vecDS are used during inference, but...

> > 为了任何混乱,**wav2vecDS.pt**是一个火炬模型,我使用类[_Wav2vecDS](https://github.com/Elsaam2y/DINet_optimized/blob/1f05b8dbbea01d929443923eebae80d2ffbf961c/utils/wav2vecDS.py#L7)避免进行了训练,以学习wav2vec特征与深度语音特征之间的映射。这样,我将wav2vec ASR模型(在本例中为)[HuberASR](https://github.com/Elsaam2y/DINet_optimized/blob/1f05b8dbbea01d929443923eebae80d2ffbf961c/utils/wav2vec.py#L24))与经过训练的DINet模型一起使用而不会引起任何问题,因为该模型是在**DeepSpeech v0.1.0**上训练的,而且速度非常慢。但是,如果需要,我将在接下来的几天内更新自文件并添加说明,方便在您自己的数据集上训练映射模型。但请记住,我不是在重新训练 wav2vec ASR 模型本身,这里只需要映射。有关 wav2vec ASR 模型以及如何训练这些模型的更多信息,请参阅[此处](https://pytorch.org/audio/0.10.0/pipelines.html)的文档。 > > 我通过使用您的 wav2vecDS.pt 模型将 wav2vec 特征与深度语音特征映射来重新训练 SyncNet,并且同步性能有所提高。不过,我想尝试一下最新的 DeepSpeech 模型,但它与 v0.10 相比在参数和输出结构上有显着差异。你能帮忙吗? 我尝试过多个版本的 DeepSpeech的pb,发现他们的输出维度和v0.1是不同的,应该是从某个版本开始就发生了改变。训练时报错 ValueError: Cannot feed value of...

> @qiu8888 To avoid any confusion, **wav2vecDS.pt** is a torch model which I trained using the class [_Wav2vecDS](https://github.com/Elsaam2y/DINet_optimized/blob/1f05b8dbbea01d929443923eebae80d2ffbf961c/utils/wav2vecDS.py#L7) to learn a mapping between wav2vec features to deep speech features. This...

I have the same problem on Ubuntu22.04, my graphics card RTX4090 only uses 396MB of video memory

亲测 Mac上也可以,牛逼啊

> wav2vec 期望是 wav2vec2、hubert这类的