speech-recognition speech-synthesis tacotron2 text-to-speech tts waveglow

Voice Cloning

voice-cloning (GitHub) • voice-cloning (Wiki)
isabelleysseric (GitHub) • isabelleysseric.com (Portfolio) • isabelle-eysseric (LinkedIn)

Note: Le notebook Voice_cloning_Training_with_Tacotron2_and_WaveGlow.ipynb est à exécuter dans Google Colab. Une fois dans Colab, vous avez besoin d'importer le dataset data_cleaned.zip dans le dossier courant /content/ Remplacer les fichiers du dossier /content/TTS-TT2/filelists/ par mes fichiers qui portent le même nom apres avoir installé Tacontron2. Le reste du code s'occupera de le décompresser et de le mettre dans le nouveau dossier /content/TTS-TT2/wavs/ Le programme vous demandera ensuite de charger votre fichier de transcription. Vous lui donnerez le fichier list.txt

Les fichiers dans le dossier input sont necessaires pour donner en entrée au modele de synthese vocale. On les retrouve aussi à la racine du projet. Les fichiers wavs correspoindent au fichier zip: data_cleaned.zip et les fichiers list.txt, ljs_audio_text_val_filelists.txt, ljs_audio_text_val_filelists.txt et ljs_audio_text_val_filelists.txt se retrouvent également à la racine du projet.
Les fichiers dans le dossier output sont les résultats du modele, pendant et apres l'apprentissage.

TREE:

input

filelists
- list.txt
- ljs_audio_text_test_filelists.txt
- ljs_audio_text_train_filelists.txt
- ljs_audio_text_val_filelists.txt
wavs
- 1.npy
- 1.wav
- ...
- 60.npy
- 60.wav

output

audio
- model_BS_6_0.00003_350epoch_0_original_audio.wav
- model_BS_6_0.00003_350epoch_0_predicted_audio.wav
- ...
- model_BS_6_0.00003_350epoch_20_original_audio.wav
- model_BS_6_0.00003_350epoch_20_predicted_audio.wav
- model_BS_6_0.00003_350signals_epoch_0.png
- ...
- model_BS_6_0.00003_350signals_epoch_20.png
images
- model_BS_6_0.00003_350_Alignment_Epoch_0_Iteration_9_Validation_Loss_1.7767614126205444.png
- ...
- model_BS_6_0.00003_350_Alignment_Epoch_20_Iteration_189_Validation_Loss_1.0240533351898193.png
logs
- events.out.tfevents.1703405636.c8a2ca7defbc.1806.11
loss
- model_BS_6_0.00003_350loss_curve_epoch_0.png
- ...
- model_BS_6_0.00003_350loss_curve_epoch_22.png
spectrogram
- model_BS_6_0.00003_350spectrograms_epoch_0.png
- ...
- model_BS_6_0.00003_350spectrograms_epoch_20.png

Voice_cloning_Training_with_Tacotron2_and_WaveGlow.ipynb
MLSP Presentation_Clonage_de_la_voix.pdf
MLSP_Rapport_Clonage_de_la_voix.pdf
README.md
data_cleaned.zip
list.txt
ljs_audio_text_test_filelist.txt
ljs_audio_text_train_filelist.txt
ljs_audio_text_val_filelist.txt

Voice-Cloning (GitHub) • Voice-Cloning (Wiki)
isabelleysseric (GitHub) • isabelleysseric.com (Portfolio) • isabelle-eysseric (LinkedIn)

About

Synthese vocale avec conditionnement sur tres petit jeu de données. Utilisation des modeles Tacotron2 et WaveGlow de Nvidia avec Pytorch.

speech-recognition speech-synthesis tacotron2 text-to-speech tts waveglow

Languages

Language:Jupyter Notebook 100.0%