choiHkk / VITSinger

Singing Voice Speech modeling test

Introduction

VITS 오픈 소스를 활용하여 Singing Voice Synthesis를 테스트합니다.
본 레포지토리 SVS model training은 44.1kHz을 기준으로 합니다.
데이터셋은 공개하지 않습니다.
Voice Conversion을 기본 출력으로 사용할 목적으로 Duration Predictor는 사용하지 않습니다.
Normal Speech Dataset으로 학습할 때와 마찬가지로 Singing Speech Dataset으로 학습해도 비슷한 퀄리티의 음성을 생성할 수 있습니다.

Docker build

cd /path/to/the/VITSinger
docker build --tag VITSinger:latest .

Training

nvidia-docker run -it --name 'VITSinger' -v /path/to/VITSinger:/home/work/VITSinger --ipc=host --privileged VITSinger:latest
cd /home/work/VITSinger
ln -s /home/work/VITSinger/data/dataset/yourdataset
python preprocess.py --data_type=korean_base --storage_path=<yourdataset_path> --target_dir=<target_dataset_path> --line_target_dir=<> --model_name=korean_base --val_len=512
python train.py -c ./configs/korean_base.json -m korean_base -d <target_dataset_path>
(OPTIONAL) tensorboard --logdir=outdir/logdir

Tensorboard losses

Tensorboard Stats

Reference

About

Singing Voice Speech modeling test

MIT License

Languages

Language:Python 98.1%Language:Dockerfile 1.0%Language:Cython 0.8%