いい感じにRVCでの学習に必要な機能が洗い出せたら、GUI作って使いやすいツールにするかもしれない
【現在あるもの】
・main.py
wavを分割するためのスクリプト
n秒ごとに.wavファイルを分割
・monoral_converter.py
ステレオ/バイノーラルのwav音声をモノラルに変換する
学習時にモノラル音声のほうがいいかも?という仮説に基づいて作った
・nosound.py
wavが無音かどうか判断するスクリプト
音声作品を3秒毎に分割すると、たくさんの無音ファイルが生成されたりする
それをフィルタリングしてフォルダ分けするためのスクリプト
【todo】
・発話分析をして音声分割をしてくれるスクリプト
n秒ごとに分割するより、発話単位で分割してくれたほうがデータセットとしての質が高まりそう
いい感じのロジックを調整中