adelacvg / NS2VC

Unofficial implementation of NaturalSpeech2 for Voice Conversion and Text to Speech

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

展示的demo效果用了多少语料

josh-zhu opened this issue · comments

如题,demo展示的效果已经不错了,请教下是使用了多少说话人的的语料库

aishell3+vctk+原神3.5,估计200小时左右,350个说话人吧。有泛化性,但集外数据还是容易不像。每个说话人不需要太多数据,1000+音色应该就能有不错的泛化性。

了解,训练事件大概多长呢。我这边有200个校对过的中文说话人数据,在30分钟-1小时之间。感觉可以叠加在ahell3和vctk之上试一下呢

demo的结果是在两张3090上训练了一天,训练更长时间音质会更好。bs设置是32,显存大概每张20g左右。

想询问原神的资料要如何取得,或是您是否能够提供连结下载呢?

想询问原神的资料要如何取得,或是您是否能够提供连结下载呢?

https://huggingface.co/datasets/Erythrocyte/Genshin_Datasets

我使用一個250位語者的資料集,GPU一張,然後做訓練 bs設置32,不過我看預設的步數是100萬步,但總時長似乎需要666個小時,每2.5秒/it。 想問一下這樣子的速度是合理的嗎? 還是是有問題的。 您的兩張訓練一天大概是多少步數呢?
我顯存使用是38560MiB,一張GPU,bs 32。

我使用一個250位語者的資料集,GPU一張,然後做訓練 bs設置32,不過我看預設的步數是100萬步,但總時長似乎需要666個小時,每2.5秒/it。 想問一下這樣子的速度是合理的嗎? 還是是有問題的。 您的兩張訓練一天大概是多少步數呢? 我顯存使用是38560MiB,一張GPU,bs 32。

可能是正常的,我有试过单卡3090,8bs 可以跑到3 it/s,两张卡32 bs大概是1.3 it/s。虽然设置了100万步,但其实30万步左右就能有不错的效果。如果很慢可以尝试调整num workers。loss没有太大参考价值,主要靠听tensorboard采样的结果。

感謝您的回覆,但如果是雙卡使用的話accelerate config 的 gpus 應該就要設定是兩個了。300000/1.3 /86000 = 2.6天左右,
我改成16bs後,還是只有1.05 it/s 慢了好多。 不知道是為什麼。
不過我有遇到,當訓練雙卡後,停止訓練後,再載入卻無法載入的情況(2 gpu時)。->有另開一個bug issue
This is my setting
compute_environment: LOCAL_MACHINE
debug: false
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: 0,2
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

額外多問一下v2跟原始model的差別在哪呢?
由於您tts的部分使用的是wip,故目前我是使用您tts專案下去做訓練嘗試。

額外多問一下v2跟原始model的差別在哪呢? 由於您tts的部分使用的是wip,故目前我是使用您tts專案下去做訓練嘗試。

在readme中有写,主要就是去掉了encodec换成了mel,用vocos作为声码器。backbone换为unet1d,还加了一些从sd那里抄过来的结构,可以参照图示理解。

oh! 昨天有更新ReadMe,抱歉沒有注意到。 之前一直有follow 有發現多寫了在dataset的處理還有unet,所以還在思考是什麼方式。
unet的部分是 Semantic Segmentation of Anomalous Diffusion Using Deep Convolutional Networks 這個論文的架構嗎?

@adelacvg 測試了一個1500+音色 600+hr的訓練資料集,測試集外數據還是會有大部分不太相似的情況。
是否真如論文所測試,需要更大量的數據集才能有集外的泛化性效果。