黄玮

Results 7 comments of 黄玮

> 参考这个项目写一写,https://github.com/Zz-ww/VITS-BigVGAN-SpanPSP-Chinese 但是训练是需要大量的数据源的,[https://www.data-baker.com/data/index/TNtts/这个开放数据源是1w条,那么想训练自己需要的音色,那么也得有几千条](https://www.data-baker.com/data/index/TNtts/%E8%BF%99%E4%B8%AA%E5%BC%80%E6%94%BE%E6%95%B0%E6%8D%AE%E6%BA%90%E6%98%AF1w%E6%9D%A1%EF%BC%8C%E9%82%A3%E4%B9%88%E6%83%B3%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E9%9C%80%E8%A6%81%E7%9A%84%E9%9F%B3%E8%89%B2%EF%BC%8C%E9%82%A3%E4%B9%88%E4%B9%9F%E5%BE%97%E6%9C%89%E5%87%A0%E5%8D%83%E6%9D%A1) 的数据源数据,搞定数据源是关键,这个我还没搞定。 有个思路就是用 sovits 先训练一个音色转换(这个所需要的素材不多)然后再把 标贝1w条数据的音色换成自己想要的使用sovits,然后再直接进行训练。只是 还没有试验此方法 你试了吗?效果怎么样?

> 先用你的数据训练sovits,然后把标贝数据转换成你的数据,然后再用本项目按标贝训练。 请问有具体的操作教程吗?谢谢~

> > Is it possible to implement other languges? > > yes, vits eats phonemes, so you just need to change the text specific part 请问有更多的教程吗?谢谢~

Hi, have you solved it? I have encountered the same problem as you :) @thanhpt93

> face render可以通过设置batch_size加快。 seamlessClone可以通过增加线程池的办法并行处理加快, src/utils/paste_pic.py > > # tmp_path = str(uuid.uuid4())+'.mp4' > > ``` > # out_tmp = cv2.VideoWriter(tmp_path, cv2.VideoWriter_fourcc(*'MP4V'), fps, (frame_w, frame_h)) > # for crop_frame in tqdm(crop_frames, 'seamlessClone:'):...

> or simply `model_name = TTS().models[0]` 有用!