- VITS 오픈 소스를 활용하여 Singing Voice Synthesis를 테스트합니다.
- 본 레포지토리 SVS model training은 44.1kHz을 기준으로 합니다.
- 데이터셋은 공개하지 않습니다.
- Voice Conversion을 기본 출력으로 사용할 목적으로 Duration Predictor는 사용하지 않습니다.
- Normal Speech Dataset으로 학습할 때와 마찬가지로 Singing Speech Dataset으로 학습해도 비슷한 퀄리티의 음성을 생성할 수 있습니다.
cd /path/to/the/VITSinger
docker build --tag VITSinger:latest .
nvidia-docker run -it --name 'VITSinger' -v /path/to/VITSinger:/home/work/VITSinger --ipc=host --privileged VITSinger:latest
cd /home/work/VITSinger
ln -s /home/work/VITSinger/data/dataset/yourdataset
python preprocess.py --data_type=korean_base --storage_path=<yourdataset_path> --target_dir=<target_dataset_path> --line_target_dir=<> --model_name=korean_base --val_len=512
python train.py -c ./configs/korean_base.json -m korean_base -d <target_dataset_path>
- (OPTIONAL)
tensorboard --logdir=outdir/logdir