FAcodec 你好，我想问下关于检查点的问题

我发现您们所提供的预训练检查点似乎都是只有权重的bin格式，而使用仓库中train训练出来的检查点都是pth格式，先是大小就差了2.5个G 由于我既无法连上HF也无法连上HFmirror，于是我就想着先用自己训练出来的检查点试试，就把检查点的名字改成了pytorch_model.bin，连着config一起放到了checkpoints里然后我发现训练出来的模型并不能够用于声音重构，因为在reconstruct的时候，模型的键是： dict_keys(['encoder', 'quantizer', 'decoder', 'discriminator', 'fa_predictors']) 而检查点的键是： Keys in ckpt_params: dict_keys(['net', 'optimizer', 'scheduler', 'iters', 'epoch']) 请问是就是这样设计的呢，还是我的使用方法是错误的呢？最后我想问一下，请问您们是如何不加上任何标签和注释就将一个音频的音色内容音高给解耦开的呢？是用的哪个文件中的哪一段函数呢？多谢解答

Jul 04 '24 15:07 rainbowjack

感谢指正。 pytorch_model.bin本身只保留了'net'的部分，其余的是optimizer states README遗漏了如何使用自行训练的检查的进行推理的script，非常抱歉另外，如果你无法连接到huggingface而无法下载teacher models的话，是不可能进行训练的，请你检查某处是否有纰漏

Jul 04 '24 19:07 Plachtaa

感谢指正。 pytorch_model.bin本身只保留了'net'的部分，其余的是优化器状态 README遗漏了如何使用自行训练的检查的进行推理的脚本，非常抱歉另外，如果你无法连接到huggingface而无法下载teacher models的话，是不可能进行训练的，请你检查某处是否有纰漏

对于那些bloom和wav2vec的处理我记得我都是先用CMD下载下来，然后再放到了对应的地方，不过具体是哪我给忘了

而且pytorch_model.bin保留的似乎并不是net和optimizer states，net的具体含义我还没有去看，自己训练出的path才是 19568be6c09731c477b5828496f846b4 如图，这是train的一部分，保存的是pth文件，bin文件保留的是'encoder', 'quantizer', 'decoder', 'discriminator', 'fa_predictors' 我目前是在train文件中自己加上了'encoder', 'quantizer', 'decoder', 'discriminator', 'fa_predictors'这些键的权重保存bin文件，这时他会同时输出pth和bin，不知这样保存的bin是否有用

请问后续您们会添加对于用pth文件的推理的script吗？

最后我还是想问一下，请问您们是如何不加上任何标签和注释就将一个音频的音色内容音高给解耦开的呢？是用的哪个文件中的哪一段函数呢？还是说是bloom和wav2vec这两个teacher的作用？这两个model我还没有仔细看是什么作用。

感谢解答

Jul 05 '24 05:07 rainbowjack