nadare

Results 15 issues of nadare

リポジトリに入れるとクローンが重くなるのでここで管理します

Thank you for the amazing software. I am particularly interested in the interesting applications of vector search. I am still in the process of setting up, but I plan to...

enhancement
good first issue

librosaベースのresampyと比較し、torchaudioはGPUを用いて高速に高品質なresampleを行えます。 (resampyのresampleはlibrosaのkaiser_bestを採用しています) librosaとtorchaudioでの変換速度の差は以下で確認できます。 https://pytorch.org/audio/stable/tutorials/audio_resampling_tutorial.html resampyの実装をtorchaudioに変換し、ついでにSOLAアルゴリズムもtorchによるGPU推論に置き換えてみようと思います。 https://github.com/w-okada/voice-changer/blob/4d6d5a27cbf42e490ae793b9e5096d5d83aa17f4/server/voice_changer/VoiceChanger.py#L483

WSL2 + Anacondaで動かせました~ ここのパラメータについては、faissのパラメータを決めていた時に n_probe = XにしてX個のクラスタを決めるよりも、上位X個の類似度の加重平均をとった方がよりknnの結果に近づくという実験をしたところ、採用されたパラメータでした。 ただ、実際のところ、knnの結果に対してある程度の誤差があっても十分に推論することはでき、計算時間ほどのパフォーマンスが得られないことがわかってきました。 計算時間短縮のため、k=1に固定していずれ余裕のある時にoptionとして追加してもいいのでは?くらいの感覚です。 WSL2動かせたテストとしてPR作成します。

resampleにtorchaudioを使うことで高速化をしました。 また、crepeに他のf0推定機同様メディアンフィルタを入れることで外れ値に強くしました。 sola bufferもtorchで動かそうとしたのですが、これは後方互換とかいろいろ大変だったのでやめました https://github.com/w-okada/voice-changer/issues/262

Model Settingでfrom netのall > 下の方のVCモデルを選択すると、modelの種類がunknownで表示される 例: [f0, 40k, 768, unknown] これを実行するとGPUが使われずCPUですごい負荷がかかってresが重くなる 自分の手元のv1モデルは5/28/17:27時点のmasterで動いています

protectについて追加しました。protect=0.5でオフにしていますが、手動でprotect=.33にして動くのを確認しています。 また、crepeについても修正し、f0の推定がうまくいかないとき他のf0推定機同様0を返すよう変更しました。 serverの関係しそうな部分をindexRatioと同様に変更したのですが実行時にエラーが起きたので、コメントアウトしています。現在この状態では動いているので、clientの部分は修正をお願いします。

serverサイドでのprotectの引数・機能の追加と、crepeの対応であれば軽く実装できそうなので巻き取れると思います。 一時間もせずサクッと移植できると思うので、対応まだであれば書いてPR出します。 https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/c2f402d7d19dcb58f30d8eafeaf4551d4868d5ba/Changelog_EN.md?plain=1#L3

The outputs of descriminator_loss and generator_loss are supposed to be between [0, 1], but looking at the code it seems that x in the output can be any value. I...

There are some suggestions for more efficient training and inference without changing the structure of the model. - Added support for mixed precision in training and inference, and bfloat16 option...