rainbowjack

Results 9 comments of rainbowjack

> 嗨,好问题! > > tl;dr:**文本转音频 (TTA) 包括文本转音乐 (TTM)。**您可以使用文本-音乐对来训练 TTA 模型,该模型实际上变成了 TTM 模型,但由于音乐作品的内部结构(速度、和声、旋律等),它可能需要大量数据。 > > 从理论上讲,音频包括音乐。AudioLDM[1]表示音频,AudioLM[2]表示,AudioGen[3]表示音频。因此,并不是说“TTA 包含在 TTM 中”,而是 TTM 是 TTA 的一个子类,其中音乐代表了一种更抽象的音频形式,包括更多的内部结构(速度、和声、旋律等)。`sound effects, music, or speech``AUDIO signals, be they speech,...

> 您好,感谢您对 Amphion SVC 的关注。但是,很遗憾,目前 Amphion 还不支持 Windows。请参阅 PR #136 中的原因。如果你还想要它,也许你可以按照 PR 来尝试。 Thanks for your reply, but it is still too difficult for me as a student to put...

emmm谢谢,看来作为初学者每天还得去看看diffsinger是个啥

ok感谢,明天我努力读懂试试看,不过可能还会有不少疑问(挠头)

thanks,i will try later By the way,Is this program Work fine on Windows?

> 一、对的 二、训练保存的ckpt文件是有optimizer states的,huggingface上传的bin文件没有 感谢解答

> 感谢指正。 pytorch_model.bin本身只保留了'net'的部分,其余的是优化器状态 README遗漏了如何使用自行训练的检查的进行推理的脚本,非常抱歉 另外,如果你无法连接到huggingface而无法下载teacher models的话,是不可能进行训练的,请你检查某处是否有纰漏 对于那些bloom和wav2vec的处理我记得我都是先用CMD下载下来,然后再放到了对应的地方,不过具体是哪我给忘了 而且pytorch_model.bin保留的似乎并不是net和optimizer states,net的具体含义我还没有去看,自己训练出的path才是 ![19568be6c09731c477b5828496f846b4](https://github.com/Plachtaa/FAcodec/assets/128379710/a42f4d1c-c609-44c2-9d2d-a28baa89f836) 如图,这是train的一部分,保存的是pth文件,bin文件保留的是'encoder', 'quantizer', 'decoder', 'discriminator', 'fa_predictors' 我目前是在train文件中自己加上了'encoder', 'quantizer', 'decoder', 'discriminator', 'fa_predictors'这些键的权重保存bin文件,这时他会同时输出pth和bin,不知这样保存的bin是否有用 请问后续您们会添加对于用pth文件的推理的script吗? 最后我还是想问一下,请问您们是如何不加上任何标签和注释就将一个音频的音色内容音高给解耦开的呢?是用的哪个文件中的哪一段函数呢?还是说是bloom和wav2vec这两个teacher的作用?这两个model我还没有仔细看是什么作用。 感谢解答

同文件94行的纬度匹配似乎也出错了,mels接受期望为1,80,mel则为80,随机数