現在v5.0まで出ている。 リポジトリ: https://github.com/PlayVoice/so-vits-svc-5.0

学習の仕方

学習データを用意する。

リポジトリのクローン

普通にclone リポジトリ内のディレクトリに移動しておく

リサンプリング

学習データのサンプリングレートは16000Hzと48000Hzの2種類ある。

学習したデータはこのように配置する。

dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
    ├───xx2-0xxx2.wav
    ├───...
    └───xxx7-xxx007.wav

最新版はdataset_rawdata_rawに変わっている。そのまま配置して大丈夫そう。 また、キャラクターごとにspeaker0のようにディレクトリを作成して配置することに注意。これをしなくても実行できてしまうけど良くない事が起こりそうだったので作成するのが無難そう。

あと初めに横着して数分程度のデータを直に読み込ませたらエラーになったので、15秒以内に分割したほうが良さそう。

16000Hzの場合

リサンプリング

ローカルに./data_svc/waves-16kというディレクトリが無いか確認する。このディレクトリがあると実行時にエラーになるのであった場合は削除する。再実行時にも削除してから再実行する。

以下のコマンドを実行。 python prepare/preprocess_a.py -w ./data_raw -o ./data_svc/waves-16k -s 16000

可选的16000Hz提升到48000Hz,待完善~批处理 (オプションの 16000Hz は 48000Hz に増やすことができ、改善される予定です ~ バッチ処理)

と書いてあるように、今後16000Hzで学習したデータを48000Hzに移行すること?が可能になるらしい。期待。

ピッチの抽出

python prepare/preprocess_f0.py -w data_svc/waves-16k/ -p data_svc/pitch

コンテンツ エンコーディングの抽出

Whisperを使うため、事前学習データが必要になる。ここからデータをダウンロード出来る。 このファイルをwhisper_pretrainに配置する。