choiHkk / VITSinger

Singing Voice Speech modeling test

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Introduction

  1. VITS 오픈 소스를 활용하여 Singing Voice Synthesis를 테스트합니다.
  2. 본 레포지토리 SVS model training은 44.1kHz을 기준으로 합니다.
  3. 데이터셋은 공개하지 않습니다.
  4. Voice Conversion을 기본 출력으로 사용할 목적으로 Duration Predictor는 사용하지 않습니다.
  5. Normal Speech Dataset으로 학습할 때와 마찬가지로 Singing Speech Dataset으로 학습해도 비슷한 퀄리티의 음성을 생성할 수 있습니다.

Docker build

  1. cd /path/to/the/VITSinger
  2. docker build --tag VITSinger:latest .

Training

  1. nvidia-docker run -it --name 'VITSinger' -v /path/to/VITSinger:/home/work/VITSinger --ipc=host --privileged VITSinger:latest
  2. cd /home/work/VITSinger
  3. ln -s /home/work/VITSinger/data/dataset/yourdataset
  4. python preprocess.py --data_type=korean_base --storage_path=<yourdataset_path> --target_dir=<target_dataset_path> --line_target_dir=<> --model_name=korean_base --val_len=512
  5. python train.py -c ./configs/korean_base.json -m korean_base -d <target_dataset_path>
  6. (OPTIONAL) tensorboard --logdir=outdir/logdir

Tensorboard losses

VITSinger-tensorboard-losses1 VITSinger-tensorboard-losses2 VITSinger-tensorboard-losses3

Tensorboard Stats

VITSinger-tensorboard-stats

Reference

  1. HiFiSinger
  2. VITS

About

Singing Voice Speech modeling test

License:MIT License


Languages

Language:Python 98.1%Language:Dockerfile 1.0%Language:Cython 0.8%